1. 大模型兴起条件

大模型为什么在最近几年兴起?大致有以下这么几点原因:

  • 硬件进步:GPU等高性能计算设备的发展,使得训练大模型成为可能
  • 算法优化:如Transformer架构的提出,提升了模型处理长序列数据的能力
  • 数据量暴增:互联网文本、图形、视频等数据量暴增(有的达到PB的量级),为大模型训练提供所需的数据量
  • 分布式训练:大模型分布式计算框架(如PyTorch、TensorFlow)的成熟,支持高效训练大模型

2. 常见大模型

模型名称 发布公司 开/闭源
DeepSeek 深度求索 开源
通义千问(Qwen) 阿里巴巴 开源
文心一言 百度 开源
豆包大模型系列 字节跳动 部分开源
腾讯混元 腾讯 部分开源
Kimi 月之暗面 开源
GPT系列 OpenAI 主要闭源,部分开源
Claude系列 Anthropic 闭源
LLaMA Meta 开源(有使用许可要求)
Gemini系列 谷歌(Google) 主要闭源,开源工具/框架(如Gemini CLI智能体框架)

3. 开源与闭源

开源大模型与闭源大模型的比较

开源大模型 闭源大模型
代码、数据、训练流程公开,可审查模型行为 黑箱操作,用户无法验证内部逻辑或者数据来源
支持微调、领域适配,灵活适应特定任务 仅限API功能,无法修改模型结构或者调整底层参数
可本地部署,长期成本固定(硬件投入为主) 按使用量付费(如Token计费),大规模应用成本高
受限于社区资源,通常弱于头部闭源模型 依托头部大厂算力与数据,推理、多模态等能力更强
需自行管理基础设施、安全更新和技术支持 供应商负责运维,用户无需关心底层技术细节
数据完全本地化,满足严格隐私要求 依赖第三方API,数据需上传到外部服务器,存在安全问题

以通义千问大模型为例,可以在阿里云百炼上看到最新的大模型信息。

在这里插入图片描述

4. 通用大模型与行业垂直大模型

  • 通用大模型:可以简单理解为发布出来的开源大模型就是通用大模型(没有做定制化方向的训练)。

  • 行业垂直大模型:在通用大模型基础上,往定制化方向训练专业的垂直领域大模型,比如金融领域垂直大模型,医疗领域垂直大模型。

5. 大模型微调

基于LLaMA-Factory框架对大模型进行训练、微调。

大模型在某些领域或者方向上不专业,出现各种各样的幻觉,给出不如人意的答复,这个时候就可以把专业领域的数据、资料送给大模型进行微调。

微调大致过程:

  1. 下载需要训练的大模型
  2. 准备好专业领域的训练数据
  3. 将数据送给LLaMA-Factory框架,对模型进行训练
  4. 训练完成后,测试
  5. 效果不达标,继续重复步骤

6. 大模型在各行各业中应用

应用行业:金融、医疗、教育、科研、媒体、通信、政务、营销、工业、交通、文娱、城市治理、法律、汽车、运维、IT等等。

应用业务场景:智能客服、智能搜索、智能营销、智能问答、智能风控、虚拟数字人、代码助手、智能办公、产品研发、政务咨询、公文写作、智慧医疗、舆情监控等。

7. 大模型潜在问题

安全问题

  • 伦理和数据安全问题
  • 数据和模型的治理问题
  • 人机协作的优化问题

均衡问题

  • 资源消耗和环境影响
  • 技术普及的不均衡
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐