AI大模型种类

qq_39012826 · 2026-06-04 15:02:31 发布

全称：大语言模型 LLM，只处理文字、对话、文档

代表：GPT、Claude、DeepSeek、豆包 (Coze 底层)、智谱 GLM

项目落地：

全称：多模态图像生成模型，输入文字出图片

代表：Midjourney、Stable Diffusion、通义万相

项目落地：侧边栏【图片生成 Tab】预留功能，前端页面做完，后端对接这类模型即可输入关键词生成图片。

输入文字描述，自动生成动态短片

代表：Runway、即梦、可灵

你的项目：【视频生成 Tab】UI 已完成，后续对接这类模型。

既能读文字，又能看懂图片、截图，上传照片提问代表：GPT4o、Gemini、豆包多模态

举例：客户上传产品故障照片 + 提问 “哪里坏了？”，AI 看图 + 文字结合回答，咱们 Coze 里切换多模态底座就能实现。

Coze（扣子）= 智能体搭建平台，，不是大模型

智能体（Agent/Bot）= 做好的成品菜 我们在 Coze 里：上传手机售后资料、设定客服规则、拖拽工作流 → 做出【手机导购机器人】，这个成品就叫智能体；
大模型 = 做菜的火源 / 原材料 ，智能体背后干活思考的是豆包大模型（Coze 默认底座），没有大模型，Coze 的智能体就是空壳，没法回答问题。