【大模型】2.大模型介绍
·
1. 大模型兴起条件
大模型为什么在最近几年兴起?大致有以下这么几点原因:
- 硬件进步:GPU等高性能计算设备的发展,使得训练大模型成为可能
- 算法优化:如Transformer架构的提出,提升了模型处理长序列数据的能力
- 数据量暴增:互联网文本、图形、视频等数据量暴增(有的达到PB的量级),为大模型训练提供所需的数据量
- 分布式训练:大模型分布式计算框架(如PyTorch、TensorFlow)的成熟,支持高效训练大模型
2. 常见大模型
| 模型名称 | 发布公司 | 开/闭源 |
|---|---|---|
| DeepSeek | 深度求索 | 开源 |
| 通义千问(Qwen) | 阿里巴巴 | 开源 |
| 文心一言 | 百度 | 开源 |
| 豆包大模型系列 | 字节跳动 | 部分开源 |
| 腾讯混元 | 腾讯 | 部分开源 |
| Kimi | 月之暗面 | 开源 |
| GPT系列 | OpenAI | 主要闭源,部分开源 |
| Claude系列 | Anthropic | 闭源 |
| LLaMA | Meta | 开源(有使用许可要求) |
| Gemini系列 | 谷歌(Google) | 主要闭源,开源工具/框架(如Gemini CLI智能体框架) |
3. 开源与闭源
开源大模型与闭源大模型的比较
| 开源大模型 | 闭源大模型 |
|---|---|
| 代码、数据、训练流程公开,可审查模型行为 | 黑箱操作,用户无法验证内部逻辑或者数据来源 |
| 支持微调、领域适配,灵活适应特定任务 | 仅限API功能,无法修改模型结构或者调整底层参数 |
| 可本地部署,长期成本固定(硬件投入为主) | 按使用量付费(如Token计费),大规模应用成本高 |
| 受限于社区资源,通常弱于头部闭源模型 | 依托头部大厂算力与数据,推理、多模态等能力更强 |
| 需自行管理基础设施、安全更新和技术支持 | 供应商负责运维,用户无需关心底层技术细节 |
| 数据完全本地化,满足严格隐私要求 | 依赖第三方API,数据需上传到外部服务器,存在安全问题 |
以通义千问大模型为例,可以在阿里云百炼上看到最新的大模型信息。

4. 通用大模型与行业垂直大模型
-
通用大模型:可以简单理解为发布出来的开源大模型就是通用大模型(没有做定制化方向的训练)。
-
行业垂直大模型:在通用大模型基础上,往定制化方向训练专业的垂直领域大模型,比如金融领域垂直大模型,医疗领域垂直大模型。
5. 大模型微调
基于LLaMA-Factory框架对大模型进行训练、微调。
大模型在某些领域或者方向上不专业,出现各种各样的幻觉,给出不如人意的答复,这个时候就可以把专业领域的数据、资料送给大模型进行微调。
微调大致过程:
- 下载需要训练的大模型
- 准备好专业领域的训练数据
- 将数据送给LLaMA-Factory框架,对模型进行训练
- 训练完成后,测试
- 效果不达标,继续重复步骤
6. 大模型在各行各业中应用
应用行业:金融、医疗、教育、科研、媒体、通信、政务、营销、工业、交通、文娱、城市治理、法律、汽车、运维、IT等等。
应用业务场景:智能客服、智能搜索、智能营销、智能问答、智能风控、虚拟数字人、代码助手、智能办公、产品研发、政务咨询、公文写作、智慧医疗、舆情监控等。
7. 大模型潜在问题
安全问题
- 伦理和数据安全问题
- 数据和模型的治理问题
- 人机协作的优化问题
均衡问题
- 资源消耗和环境影响
- 技术普及的不均衡
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)