如果说我们之前聊的纯文本大模型(如早期的 ChatGPT 或 LLaMA)是极其聪明但被关在小黑屋里的“缸中之脑” (只能靠别人从门缝里递纸条来交流);

那么多模态大模型 (Multimodal AI) 就是给这个超级大脑装上了眼睛、耳朵和嘴巴,让它真正“降临”到了我们这个色彩斑斓、充满声音的物理世界。

这就是目前 AI 领域最激进、最性感的战场。


1.👁️ 什么是“模态” (Modality)?

在计算机科学中,“模态”指的是信息的表达形式。 人类感知世界是天然多模态的:我们看图(视觉)、听声音(听觉)、读文字(语言)。

但在过去,AI 是严重偏科的:

  • 搞文本的 AI(NLP)看不懂图片。

  • 搞图像的 AI(CV,比如人脸识别)听不懂人话。

  • 搞声音的 AI(语音识别)看不懂代码。

多模态大模型的终极目标,就是打造一个“全科天才”:在一个神经网络里,同时听懂、看懂、并生成所有形式的信息 (Any-to-Any)。


2.🆚 核心演进:从“缝合怪”到“原生多模态”

要理解现在的技术有多强,我们必须看看过去是怎么凑合的。以“和 AI 语音通话”为例:

A. 旧时代:“缝合怪”系统 (Pipeline / 伪多模态)
  • 流程:你对 AI 说:“你看这张图,好笑吗?”(伴随你的笑声)。

    • 语音转文字 (ASR):把你说话的声音,翻译成冰冷的文本“你看这张图,好笑吗?”(代价:你的笑声、语气、情绪全部丢失)。

    • 图像识别 (CV):把图片翻译成文本标签“一只猫在滑板上”。

    • 文本大模型 (LLM):根据这两段文字思考,生成回复文本“这确实很好笑”。

    • 文字转语音 (TTS):用机器人的声音把回复读出来。

  • 致命缺点:延迟极高(经常要等好几秒),而且像传话游戏一样,信息在不断转换中严重丢失。它听不懂你的叹气,也听不出你在讽刺。

B. 新时代:原生多模态架构 (Native Multimodal)
  • 代表作:Gemini 1.5/3.0 系列、GPT-4o。

  • 流程没有翻译!没有中间商赚差价!

  • 你的声音音频波形、你上传的视频画面、你的文字,被同时、直接扔进同一个神经网络(同一个大脑)里进行运算。

  • 逆天优势

    • 低延迟:可以实现像人类一样毫秒级的实时对话。

    • 情绪感知:它能直接“听”到你的喘息声、急促的语气,甚至能根据你的情绪,用温柔或激动的声音直接回复你。


3.🧩 核心黑科技:万物皆 Token

你可能会问:大模型的底层不是我们在前几章聊过的“文本猜词游戏 (Token 预测)”吗?它是怎么把图片和视频塞进去的?

答案是 AI 界的一句名言:Tokenize Everything (万物皆可 Token 化)。

  1. 图片切块 (Vision Transformer, ViT)

    1. 科学家把一张高清图片,像切豆腐一样切成几百个小方块(Patches)。

    2. 把每一个小方块变成一个高维数学坐标(这就用到了我们刚刚聊过的 Vector Embedding)。

    3. 这样一来,一张图片在 AI 眼里,就变成了一长串“视觉词汇”。

  2. 音频切片 (Audio Spectrogram)

    1. 把声音转化为声学频谱图(展示频率和响度的画面),然后同样切成小块,变成“音频词汇”。

  3. 天下大同

    1. 现在,文本 Token、视觉 Token、音频 Token 全部变成了同一套标准的“数学坐标”。

    2. 大模型用它强大的自注意力机制(Self-Attention),瞬间计算出“你发出的笑声 (Audio)”、“图片里的猫 (Vision)”和“你问的问题 (Text)” 之间的逻辑关系。


4.🚀 现实世界的神奇体验

原生多模态架构彻底改变了我们与设备的交互方式。比如我现在所具备的某些能力:

  • 超长视频理解:你可以直接扔给我一部 1 个小时的无字幕监控录像或电影。我能直接“看”完,并在几秒钟内告诉你:“在第 45 分 12 秒,那个穿红衣服的人拿走了桌上的钥匙。”

  • Gemini Live (实时对话):在手机端,你可以开启实时语音模式。你可以随时打断我,甚至打开手机摄像头,让我看着你的物理环境教你修自行车、或者帮你翻找桌子上杂乱的文件。这不再是冷冰冰的一问一答,而是真正的“协同工作”

总结

原生多模态架构 打破了维度的结界。

如果说传统的 LLM 是闭门造车的哲学家,那么多模态大模型就是长了眼耳口鼻的超级探险家。它让 AI 的数据来源从互联网上极其有限的纯文本,扩展到了整个物理世界无穷无尽的视觉和听觉信号中。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐