大模型常见术语表

一、核心概念类

1. AI(Artificial Intelligence)

中文:人工智能

简介:模拟人类智能的计算机系统,涵盖学习、推理、感知等技术,广泛应用于机器人、语音识别等领域。

2. LLM(Large Language Model)

中文:大语言模型

简介:基于海量文本训练的通用语言模型(如GPT-4、文心一言),可完成文本生成、翻译、代码编写等任务。

3. AGI(Artificial General Intelligence)

中文:通用人工智能

简介:具备人类同等认知能力的AI系统,能跨领域自主学习和解决问题,当前仍处于理论探索阶段。

4. AIGC(AI-Generated Content)

中文:人工智能生成内容

简介:利用AI生成文本、图像、音频等内容的技术,典型应用包括AI绘画(如Midjourney)、AI写作工具。

5. Token

中文:词元

简介:模型处理文本的最小单位,中文通常以字或词为Token,影响计算效率与成本(按Token数计费)。

二、技术架构类

1. Transformer

中文:变换器架构

简介:基于自注意力机制的神经网络架构,解决传统RNN处理长序列时的梯度消失问题,成为大模型的核心技术。

2. Attention Mechanism

中文:注意力机制

简介:让模型动态关注输入数据的关键部分,提升长文本理解能力,例如翻译时聚焦源语言的核心词汇。

3. RAG(Retrieval-Augmented Generation)

中文:检索增强生成

简介:结合外部知识库与大模型生成能力,通过检索相关文档提升回答准确性,适用于知识密集型任务(如医疗问答)。

4. MCP(Model Context Protocol)

中文:模型上下文协议

简介:由Anthropic推出的开源协议,旨在实现大语言模型与外部数据源和工具的集成,用来在大模型和数据源之间建立安全双向的连接。

三、训练与优化类

1. Pre-training

中文:预训练

简介:模型在海量无标注数据上学习通用知识的过程,例如BERT通过预测被遮蔽的词语掌握语言规律。

2. Prompt Engineering

中文:提示工程

简介:设计输入指令以引导模型输出更符合需求的结果,例如将“翻译这句话”优化为“以正式商务风格翻译以下英文合同条款”。

3. Hallucination

中文:幻觉问题

简介:模型生成与事实不符的内容,如虚构历史事件,常通过RAG技术或事实性校验缓解。

4. Fine-tuning

中文:微调

简介:在预训练模型基础上,用特定领域数据二次训练,使模型适应专业场景(如法律文书生成)。

四、推理

1. Chain-of-Thought, CoT

中文:思维链

简介:一种通过分步骤逻辑推理提升大语言模型解决复杂问题能力的技术,在问LLM问题前,手工在prompt里面加入一些包含思维过程的问答示例,就可以让LLM在推理任务上大幅提升。

2. Few-shot CoT

中文:少样本思维链

简介:通过提供少量包含推理过程的示例(通常3-5个),引导模型学习类似的推理模式。

3. Zero-shot CoT

中文:零样本思维链

简介:不提供任何示例的情况下,直接通过自然语言指令(如“让我们一步步思考”)引导模型生成推理步骤。

五、应用与扩展类

1. Multimodal Model

中文:多模态模型

简介:能同时处理文本、图像、音频等多种输入的大模型(如GPT-4V),支持“根据图片生成故事”等复杂任务。

2. AI Agent

中文:智能体

简介:具备自主规划与执行能力的AI系统,例如能独立完成“预订机票-安排行程-发送提醒”的旅行助手。

3. Model Compression

中文:模型压缩

简介:通过剪枝、量化等技术减小模型体积,使其能在手机等边缘设备运行(如华为盘古模型轻量化版本)。

4. Skills

中文:技能包

简介:一个打包好的“技能包”。它把完成某个特定任务所需的领域知识、操作流程、要用到的工具、以及最佳实践全都封装在了一起。当 AI 面对相应请求时,就能像一位经验丰富的专家那样,有条不紊地自主执行。 [1]一个 Skills 通常以一个文件夹的形式存在,里面主要装着三样东西:一份说明书(SKILL.md)、一堆操作脚本(Script)、以及一些参考资料(Reference)。 [1]

六、大模型公司及产品

国外知名大模型产品

• GPT-5系列

    ◦ 公司 :OpenAI

    ◦ 特点 :综合能力顶尖,通用场景适应性强,在多模态、逻辑推理和工具调用方面表现卓越 。

• Claude 4.5系列

    ◦ 公司 :Anthropic

    ◦ 特点 :以安全合规性著称,长文本处理能力非常出色,代码生成和逻辑推理严谨 。

• Gemini 3系列

    ◦ 公司 :Google DeepMind

    ◦ 特点 :原生多模态能力强大,能够无缝融合和处理文本、图像、音频和视频,与谷歌搜索等生态系统深度集成 。

• LLaMA 4系列

    ◦ 公司 :Meta

    ◦ 特点 :完全开源的通用模型,可进行私有化部署,社区生态活跃,性价比极高 。

• Grok 4系列

    ◦ 公司 :xAI

    ◦ 特点 :能够实时接入网络数据,响应速度快,风格幽默,善于理解梗文化 。

国内知名大模型产品

• 通义千问 (Qwen) 系列

    ◦ 公司 :阿里巴巴

    ◦ 特点 :中文理解能力强,开源生态丰富,在编程和多语言任务上表现突出 。

• 文心一言 (ERNIE) 系列

    ◦ 公司 :百度

    ◦ 特点 :在中文语义理解和知识图谱方面优势明显,数据安全合规性成熟,适合政务、金融等领域 。

• DeepSeek V3系列

    ◦ 公司 :深度求索

    ◦ 特点 :以极致的性价比著称,在数学推理和代码生成方面能力强大,开源模式使其在学术界和工业界广受欢迎 。

• Kimi K2.5系列

    ◦ 公司 :月之暗面

    ◦ 特点 :超长文本处理能力领先,支持百万级token,非常适合处理长篇文档、论文和法律合同 。

• 豆包大模型系列

    ◦ 公司 :字节跳动

    ◦ 特点 :C端用户体验优秀,多模态能力强,语音交互自然流畅,内容创作功能完善 。

• GLM-4.6系列

    ◦ 公司 :智谱AI

    ◦ 特点 :中英双语能力均衡,开源友好,API性价比高,在智能体应用方面有深入布局 。

• 星火大模型系列

    ◦ 公司 :科大讯飞

    ◦ 特点 :在教育和医疗等垂直领域深耕,特别是在语音识别、口语测评和医疗诊断方面表现突出 。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐