模型分类

  • 语言模型:玩转文字的“语文天才”
  • 语音模型:专精于声音的“听力与口才专家”
  • 视觉模型:读懂图像的“火眼金睛”
  • 向量模型:把信息变成通用数学“代号”的翻译官
  • 智能路由模型:负责调度和分配的“总指挥”

1. 语言模型

  • 是什么意思?
    专门学习和生成人类文字语言的模型。它通过海量文本训练,掌握了语法、词义、逻辑和一定的推理能力。

  • 能做什么事?

    • 对话、问答(ChatGPT、DeepSeek等聊天机器人)

    • 内容创作(写文章、邮件、诗歌、代码)

    • 文本总结、翻译、情感分析

2. 语音模型

  • 是什么意思?
    专门处理音频信号的模型。它可以分为两类:

    • 语音识别(ASR):听懂人说话,把声音转成文字。

    • 语音合成(TTS):学会说话,把文字变成自然的人声。

    • 声纹识别:分辨说话人是谁。

  • 能做什么事?

    • 智能语音助手(Siri、小爱同学)接收你的语音指令

    • 自动生成视频配音、有声书

    • 会议录音转文字、语音搜索

    • 电话客服质检、声纹门禁

3. 视觉模型

  • 是什么意思?
    专门处理图像或视频的模型。它能识别图像中的物体、人脸、场景、动作等。

  • 能做什么事?

    • 图像分类(这是猫还是狗?)

    • 目标检测(框出图中的车和行人)

    • 人脸识别(解锁手机、支付验证)

    • 医学影像分析(X光、CT找病灶)

    • 自动驾驶(识别车道、路标、障碍物)

4. 向量模型

  • 是什么意思?
    它不直接输出文字或图像,而是将任何信息(文本、图片、音频等)转换成一个数学向量(一列有意义的数字)。核心能力是让“语义相似”的两个东西在向量空间里距离更近。

  • 能做什么事?

    • 语义搜索(搜“会飞的老鼠”找到蝙蝠)

    • 推荐系统(给你推和之前看过商品相似的商品)

    • 知识库问答(先将文档转成向量建立索引,再把你的问题转成向量去匹配相关内容,最后交给语言模型回答)

    • 文本去重、聚类、异常检测

5. 智能路由模型

  • 是什么意思?
    这是一个决策调度模型。它不直接解决问题,而是先分析用户的请求,判断这个请求属于哪种类型、需要哪些能力,然后将任务分派给最合适的专门模型(如语言模型、语音模型、视觉模型等),有时还会组合多个模型的结果后返回。

  • 能做什么事?

    • 构建复杂的AI系统(例如一个智能音箱:你说“帮我看看门口是谁”,路由模型判断需要先调用语音模型转文字 → 再调用视觉模型分析摄像头画面 → 最后调用语言模型组织回答)

    • 成本与效率优化(简单问题让便宜的小模型处理,复杂问题才交给昂贵的大模型)

    • 工具调用(“发邮件给张三”,路由决定调用发邮件的API,而不是自己编内容)

对比总结表

模型名称 处理对象 核心能力 典型应用
语言模型 文字 理解并生成文本 聊天、写作、翻译、代码生成
语音模型 声音/音频 语音转文字、文字转语音、声纹识别 语音助手、录音转写、有声合成
视觉模型 图像/视频 识别、检测、分割图像内容 人脸识别、自动驾驶、医学影像
向量模型 文本/图像/声音等 将各种信息转化为数学向量,用于相似度计算 语义搜索、推荐系统、知识库召回
智能路由模型 用户请求 分析意图,调度合适的模型或工具 复合AI系统、多模态助手、成本控制
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐