本篇目标:这是卷 1 的收官之作。我们不仅要让 AI 听懂人话,还要让它长出“眼睛”,帮我们看图、读 PDF、甚至分析 Excel 表格。


一、什么是多模态(Multimodal)?

单模态(Text-only):只能处理文字。

  • 你:“这只猫可爱吗?” -> AI:“我看不到图。”

多模态(Multimodal):能处理文字、图像、音频、视频等多种信息。

  • 你发一张猫的照片:“这只猫可爱吗?” -> AI:“这只橘猫太萌了!它的眼睛是绿色的。”

现在的顶流模型(GPT-4o, Claude 3.5, Gemini 1.5)都是原生多模态的。这意味着它们天生就能“看懂”图片,而不是先把图片转成文字再读。


二、场景 A:图像理解(Vision)

让 AI 看图,不仅仅是用来聊天的,它在编程中有巨大的实战价值。

1. UI 设计图转代码(Design to Code)

这是前端开发的神器。

  • 输入:一张网页设计的截图(甚至手绘草图)。
  • Prompt:“请把这张图用 React + Tailwind CSS 写出来,要响应式布局。”
  • 输出:一段高度还原的 JSX 代码。
  • 效果:虽然细节可能需要微调,但骨架和布局通常能做到 80% 的还原度,省去你手写 CSS 的痛苦。

2. 报错截图分析

  • 场景:终端报错了一大堆红字,你懒得复制。
  • 操作:直接截图,丢给 AI。
  • Prompt:“这是怎么回事?怎么修?”
  • AI 能力:它能精准识别图中的错误堆栈(Stack Trace),告诉你“第 5 行少了个括号”。

三、场景 B:文档处理(Document Understanding)

这是 AI 在办公场景(RAG)里的杀手锏。

1. PDF 解析(不仅仅是 OCR)

传统的 OCR(光学字符识别)只能把 PDF 变成乱糟糟的文字。
现在的 AI 能理解版式(Layout)

  • 它知道这是一个“两栏排版”的论文。
  • 它知道这是一个“跨页表格”。
  • 它能把表格里的数据精准提取成 Markdown 或 JSON。

2. Excel/CSV 数据分析

  • 输入:一个 1000 行的销售数据表。
  • Prompt:“帮我分析一下上个季度哪个产品卖得最好,并画个柱状图。”
  • AI (Code Interpreter)
    1. 它会写一段 Python 代码(pandas)。
    2. 读取你的 CSV。
    3. 计算销售额。
    4. 调用 matplotlib 画图。
    5. 直接给你展示一张图片!

四、实战:如何把文件“喂”给 AI?

1. 网页版/客户端(最简单)

直接拖拽上传。

  • ChatGPT/Claude:支持 PDF, Word, Excel, 图片。
  • 注意:大文件(如 500 页的书)可能会被截断,或者让 AI 读得很慢。

2. API 调用(开发者模式)

如果你要写代码调用 Vision 模型(以 OpenAI 为例):

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图里有什么?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/image.png"
                    }
                }
            ]
        }
    ]
)

3. 本地 RAG(进阶)

如果你有很多私密文档,不能传云端:

  1. 用工具(如 unstructuredPyPDF2)把文档转成纯文本。
  2. 切片(Chunking)。
  3. 存入向量数据库(见第 12 章)。
  4. 检索相关片段喂给 LLM。

五、本篇产出:文档处理任务拆解清单

当你接到一个“处理文档”的需求时,按这个清单拆解:

步骤 关键问题 推荐工具/模型
1. 预处理 是纯文本 PDF 还是扫描件(图片)? 纯文本用 PyPDF;扫描件用 GPT-4o VisionOCR
2. 结构化 表格复杂吗?有跨页吗? 复杂表格建议用专门的版面分析模型(如 LayoutLM)。
3. 理解/提取 要提取什么字段? 定义好 JSON Schema(见第 11 章)。
4. 验证 提取的数据对不对? 让人工抽检 5-10 条,或写规则校验(如手机号必须 11 位)。

卷 1 总结:你已经懂得了 AI 的“五脏六腑”

恭喜你!卷 1:LLM 核心原理与基础概念(共 8 篇)全部通关。

我们回顾一下你现在的装备:

  1. Token:知道怎么算钱。
  2. Temperature:知道怎么调脑洞。
  3. 推理原理:知道它在做填空题。
  4. System Prompt:知道怎么给它洗脑。
  5. 结构化输出:知道怎么让它吐 JSON。
  6. Embedding:知道它怎么理解语义。
  7. Tool Calling:知道它怎么用工具。
  8. 多模态:知道它怎么看图读文档。

你已经从一个“小白用户”变成了一个懂原理的“准开发者”。
接下来,卷 2 将带你进入“Prompt 工程与工作流”的深水区。
我们将不再讨论原理,而是专注于实战技巧:如何写出价值百万的 Prompt?如何让 AI 帮你写出无 Bug 的代码?如何构建一套自动化的工作流?

准备好了吗?让我们开始“驯服”AI。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐