1. 大模型 

参数大的深度学习模型

  • 常见举例

    1. 大语言模型 (Large Language Models, LLMs)

    这类模型主要处理文本数据,能够理解和生成人类语言,适用于对话、问答、文本摘要、翻译、代码生成等多种任务。

  • Qwen3

    • 特点
      • 多语言能力:支持多种语言的文本理解和生成。
      • 强大的上下文理解:能够处理较长的输入文本序列,维持对话或文本的连贯性。
      • 代码能力:在代码生成、解释和补全方面表现良好。
  • Qwen3.5

    • 特点 (相较于Qwen3的改进或侧重):
      • 更强的推理能力:在逻辑推理、数学解题等需要多步思考的任务上性能提升。
      • 更优的指令遵循:能更准确地理解和执行用户给出的复杂指令。
      • 知识更新:可能融入了更新的训练数据,知识覆盖面更广或时效性更强。
  • DeepSeek-V1

    • 特点
      • 开源属性:强调模型的开放性和可访问性。
      • 中文优化:在中文语境下的理解和生成能力进行了特别优化。
      • 长上下文支持:支持处理非常长的文本序列(如128K tokens),适合需要大量背景信息的任务。
      • 2. 音频模型 (Audio Models)

        这类模型专注于处理音频信号,包括语音识别、语音合成、音乐生成、音频事件检测等任务。

      • 代表性模型/技术方向特点
        • Whisper (OpenAI):强大的多语种语音识别能力,鲁棒性好。
        • VALL-E (微软):高质量、高自然度的语音合成,支持零样本或少样本语音克隆。
        • MusicLM (Google):能够根据文本描述生成连贯、多样的音乐片段。
        • 通用特点
          • 声学建模:核心是理解声音的物理特性(频谱、梅尔频率等)。
          • 时序建模:音频是强时序信号,模型需要有效处理时间序列依赖关系。
          • 跨模态理解:部分任务(如根据文本生成语音/音乐)需要连接文本和音频模态。
      • 3. Ranker 模型 (Ranking Models)

        这类模型的核心任务是评估和排序。它们接收一组候选项(如搜索结果、推荐物品、回复选项)和一个查询/上下文,为每个候选项打分或预测其相关性概率,最终输出排序结果


2. 芯片 (Chip)
  • 定义:机器上的卡。
  • 特性
    • 并行计算:擅长处理大规模并行运算(如矩阵乘法)。
    • 高能效:专为AI计算优化功耗。
    • 专用化:针对特定计算模式设计。
  • 常见举例
    • GPU:英伟达NVIDIA
    • TPU:Google专为TensorFlow优化的张量处理器。
    • NPU:华为昇腾,嵌入式AI推理芯片。

3. 架构 (Architecture)
  • 常见举例
    • Transformer:当前LLM的主流架构,依赖自注意力机制。
    • LSTM:解决RNN长期依赖问题的门控结构。
    • U-Net:图像分割中的编码器-解码器对称架构。

4. 框架 (Framework)
  • 定义:让软件能用上芯片
  • 常见举例
    • PyTorch:动态图优先,研究友好。
    • TensorFlow:静态图优化,生产部署强。
    • JAX:基于自动微分和XLA编译的高性能框架。

5. 引擎 (Engine)
  • 定义:执行模型推理或训练的运行时系统,负责硬件资源调度和计算加速。
  • 特性
    • 优化推理:降低延迟,提高吞吐量。
    • 硬件适配:针对特定芯片(如CUDA for NVIDIA GPU)优化。
    • 轻量化:支持边缘设备部署(如TensorRT)。
  • 常见举例
    • ONNX Runtime:跨框架模型推理引擎。
    • TensorRT:NVIDIA GPU的高性能推理优化器。
    • DeepSpeed:分布式训练加速库(配合PyTorch)。

6. 镜像 (Image)
  • 定义:包含完整运行环境(代码、依赖、配置)的文件系统快照,用于快速部署应用。
  • 特性
    • 不可变性:创建后内容不可更改。
    • 便携性:可在任何支持容器的系统中运行。
    • 版本控制:支持标签管理(如ubuntu:22.04)。
  • 常见举例
    • Docker镜像:包含Python环境+PyTorch的模型训练镜像。
    • 虚拟机镜像:传统虚拟化技术中的系统快照。

7. 容器 (Container)
  • 定义:轻量级虚拟化技术,基于镜像创建隔离的运行环境。
  • 特性
    • 资源隔离:独立进程空间、网络、文件系统。
    • 快速启动:秒级启动,无需完整操作系统。
    • 可编排:支持集群管理(如Kubernetes)。
  • 常见举例
    • Docker容器:运行模型API服务的实例。
    • Kata Containers:强调安全性的容器运行时。

9. Agent (智能体)
  • 定义:能感知环境、自主决策并执行动作的智能系统,常基于LLM构建。
  • 特性
    • 自治性:无需人工干预即可完成任务。
    • 工具使用:可调用API、搜索、执行代码等。
    • 记忆机制:保留历史交互上下文(如向量数据库)。
  • 常见举例
    • AutoGPT:自主拆解复杂任务的实验性Agent。
    • ChatGPT Plugins:通过插件扩展能力的聊天Agent。
    • LangChain Agent:框架支持的标准化Agent构建模块。

概念关系总结

层级 概念 依赖关系
硬件层 芯片 提供算力基础
环境层 容器、镜像 封装运行环境
框架层 框架、引擎 提供模型开发与加速工具
模型层 架构、模型、LLM 定义算法结构与参数
应用层 Agent 使用模型执行复杂任务

通过理解这些核心概念及其关联,可系统掌握大模型与Agent开发的技术栈基础。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐