大模型的常见术语
大模型常见术语表
一、核心概念类
1. AI(Artificial Intelligence)
中文:人工智能
简介:模拟人类智能的计算机系统,涵盖学习、推理、感知等技术,广泛应用于机器人、语音识别等领域。
2. LLM(Large Language Model)
中文:大语言模型
简介:基于海量文本训练的通用语言模型(如GPT-4、文心一言),可完成文本生成、翻译、代码编写等任务。
3. AGI(Artificial General Intelligence)
中文:通用人工智能
简介:具备人类同等认知能力的AI系统,能跨领域自主学习和解决问题,当前仍处于理论探索阶段。
4. AIGC(AI-Generated Content)
中文:人工智能生成内容
简介:利用AI生成文本、图像、音频等内容的技术,典型应用包括AI绘画(如Midjourney)、AI写作工具。
5. Token
中文:词元
简介:模型处理文本的最小单位,中文通常以字或词为Token,影响计算效率与成本(按Token数计费)。
二、技术架构类
1. Transformer
中文:变换器架构
简介:基于自注意力机制的神经网络架构,解决传统RNN处理长序列时的梯度消失问题,成为大模型的核心技术。
2. Attention Mechanism
中文:注意力机制
简介:让模型动态关注输入数据的关键部分,提升长文本理解能力,例如翻译时聚焦源语言的核心词汇。
3. RAG(Retrieval-Augmented Generation)
中文:检索增强生成
简介:结合外部知识库与大模型生成能力,通过检索相关文档提升回答准确性,适用于知识密集型任务(如医疗问答)。
4. MCP(Model Context Protocol)
中文:模型上下文协议
简介:由Anthropic推出的开源协议,旨在实现大语言模型与外部数据源和工具的集成,用来在大模型和数据源之间建立安全双向的连接。
三、训练与优化类
1. Pre-training
中文:预训练
简介:模型在海量无标注数据上学习通用知识的过程,例如BERT通过预测被遮蔽的词语掌握语言规律。
2. Prompt Engineering
中文:提示工程
简介:设计输入指令以引导模型输出更符合需求的结果,例如将“翻译这句话”优化为“以正式商务风格翻译以下英文合同条款”。
3. Hallucination
中文:幻觉问题
简介:模型生成与事实不符的内容,如虚构历史事件,常通过RAG技术或事实性校验缓解。
4. Fine-tuning
中文:微调
简介:在预训练模型基础上,用特定领域数据二次训练,使模型适应专业场景(如法律文书生成)。
四、推理
1. Chain-of-Thought, CoT
中文:思维链
简介:一种通过分步骤逻辑推理提升大语言模型解决复杂问题能力的技术,在问LLM问题前,手工在prompt里面加入一些包含思维过程的问答示例,就可以让LLM在推理任务上大幅提升。
2. Few-shot CoT
中文:少样本思维链
简介:通过提供少量包含推理过程的示例(通常3-5个),引导模型学习类似的推理模式。
3. Zero-shot CoT
中文:零样本思维链
简介:不提供任何示例的情况下,直接通过自然语言指令(如“让我们一步步思考”)引导模型生成推理步骤。
五、应用与扩展类
1. Multimodal Model
中文:多模态模型
简介:能同时处理文本、图像、音频等多种输入的大模型(如GPT-4V),支持“根据图片生成故事”等复杂任务。
2. AI Agent
中文:智能体
简介:具备自主规划与执行能力的AI系统,例如能独立完成“预订机票-安排行程-发送提醒”的旅行助手。
3. Model Compression
中文:模型压缩
简介:通过剪枝、量化等技术减小模型体积,使其能在手机等边缘设备运行(如华为盘古模型轻量化版本)。
4. Skills
中文:技能包
简介:一个打包好的“技能包”。它把完成某个特定任务所需的领域知识、操作流程、要用到的工具、以及最佳实践全都封装在了一起。当 AI 面对相应请求时,就能像一位经验丰富的专家那样,有条不紊地自主执行。 [1]一个 Skills 通常以一个文件夹的形式存在,里面主要装着三样东西:一份说明书(SKILL.md)、一堆操作脚本(Script)、以及一些参考资料(Reference)。 [1]
六、大模型公司及产品
国外知名大模型产品
• GPT-5系列
◦ 公司 :OpenAI
◦ 特点 :综合能力顶尖,通用场景适应性强,在多模态、逻辑推理和工具调用方面表现卓越 。
• Claude 4.5系列
◦ 公司 :Anthropic
◦ 特点 :以安全合规性著称,长文本处理能力非常出色,代码生成和逻辑推理严谨 。
• Gemini 3系列
◦ 公司 :Google DeepMind
◦ 特点 :原生多模态能力强大,能够无缝融合和处理文本、图像、音频和视频,与谷歌搜索等生态系统深度集成 。
• LLaMA 4系列
◦ 公司 :Meta
◦ 特点 :完全开源的通用模型,可进行私有化部署,社区生态活跃,性价比极高 。
• Grok 4系列
◦ 公司 :xAI
◦ 特点 :能够实时接入网络数据,响应速度快,风格幽默,善于理解梗文化 。
国内知名大模型产品
• 通义千问 (Qwen) 系列
◦ 公司 :阿里巴巴
◦ 特点 :中文理解能力强,开源生态丰富,在编程和多语言任务上表现突出 。
• 文心一言 (ERNIE) 系列
◦ 公司 :百度
◦ 特点 :在中文语义理解和知识图谱方面优势明显,数据安全合规性成熟,适合政务、金融等领域 。
• DeepSeek V3系列
◦ 公司 :深度求索
◦ 特点 :以极致的性价比著称,在数学推理和代码生成方面能力强大,开源模式使其在学术界和工业界广受欢迎 。
• Kimi K2.5系列
◦ 公司 :月之暗面
◦ 特点 :超长文本处理能力领先,支持百万级token,非常适合处理长篇文档、论文和法律合同 。
• 豆包大模型系列
◦ 公司 :字节跳动
◦ 特点 :C端用户体验优秀,多模态能力强,语音交互自然流畅,内容创作功能完善 。
• GLM-4.6系列
◦ 公司 :智谱AI
◦ 特点 :中英双语能力均衡,开源友好,API性价比高,在智能体应用方面有深入布局 。
• 星火大模型系列
◦ 公司 :科大讯飞
◦ 特点 :在教育和医疗等垂直领域深耕,特别是在语音识别、口语测评和医疗诊断方面表现突出 。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)