14｜多模态入门：图像/文档如何进入工作流

qqxhb

344人浏览 · 2026-03-23 09:23:21

qqxhb · 2026-03-23 09:23:21 发布

本篇目标：这是卷 1 的收官之作。我们不仅要让 AI 听懂人话，还要让它长出“眼睛”，帮我们看图、读 PDF、甚至分析 Excel 表格。

一、什么是多模态（Multimodal）？

单模态（Text-only）：只能处理文字。

你：“这只猫可爱吗？” -> AI：“我看不到图。”

多模态（Multimodal）：能处理文字、图像、音频、视频等多种信息。

你发一张猫的照片：“这只猫可爱吗？” -> AI：“这只橘猫太萌了！它的眼睛是绿色的。”

现在的顶流模型（GPT-4o, Claude 3.5, Gemini 1.5）都是原生多模态的。这意味着它们天生就能“看懂”图片，而不是先把图片转成文字再读。

二、场景 A：图像理解（Vision）

让 AI 看图，不仅仅是用来聊天的，它在编程中有巨大的实战价值。

1. UI 设计图转代码（Design to Code）

这是前端开发的神器。

输入：一张网页设计的截图（甚至手绘草图）。
Prompt：“请把这张图用 React + Tailwind CSS 写出来，要响应式布局。”
输出：一段高度还原的 JSX 代码。
效果：虽然细节可能需要微调，但骨架和布局通常能做到 80% 的还原度，省去你手写 CSS 的痛苦。

2. 报错截图分析

场景：终端报错了一大堆红字，你懒得复制。
操作：直接截图，丢给 AI。
Prompt：“这是怎么回事？怎么修？”
AI 能力：它能精准识别图中的错误堆栈（Stack Trace），告诉你“第 5 行少了个括号”。

三、场景 B：文档处理（Document Understanding）

这是 AI 在办公场景（RAG）里的杀手锏。

1. PDF 解析（不仅仅是 OCR）

传统的 OCR（光学字符识别）只能把 PDF 变成乱糟糟的文字。
现在的 AI 能理解版式（Layout）：

它知道这是一个“两栏排版”的论文。
它知道这是一个“跨页表格”。
它能把表格里的数据精准提取成 Markdown 或 JSON。

2. Excel/CSV 数据分析

输入：一个 1000 行的销售数据表。
Prompt：“帮我分析一下上个季度哪个产品卖得最好，并画个柱状图。”
AI (Code Interpreter)：
1. 它会写一段 Python 代码（pandas）。
2. 读取你的 CSV。
3. 计算销售额。
4. 调用 matplotlib 画图。
5. 直接给你展示一张图片！

四、实战：如何把文件“喂”给 AI？

1. 网页版/客户端（最简单）

直接拖拽上传。

ChatGPT/Claude：支持 PDF, Word, Excel, 图片。
注意：大文件（如 500 页的书）可能会被截断，或者让 AI 读得很慢。

2. API 调用（开发者模式）

如果你要写代码调用 Vision 模型（以 OpenAI 为例）：

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图里有什么？"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/image.png"
                    }
                }
            ]
        }
    ]
)

3. 本地 RAG（进阶）

如果你有很多私密文档，不能传云端：

用工具（如 unstructured 或 PyPDF2）把文档转成纯文本。
切片（Chunking）。
存入向量数据库（见第 12 章）。
检索相关片段喂给 LLM。

五、本篇产出：文档处理任务拆解清单

当你接到一个“处理文档”的需求时，按这个清单拆解：

步骤	关键问题	推荐工具/模型
1. 预处理	是纯文本 PDF 还是扫描件（图片）？	纯文本用 `PyPDF`；扫描件用 `GPT-4o Vision` 或 `OCR`。
2. 结构化	表格复杂吗？有跨页吗？	复杂表格建议用专门的版面分析模型（如 `LayoutLM`）。
3. 理解/提取	要提取什么字段？	定义好 JSON Schema（见第 11 章）。
4. 验证	提取的数据对不对？	让人工抽检 5-10 条，或写规则校验（如手机号必须 11 位）。

卷 1 总结：你已经懂得了 AI 的“五脏六腑”

恭喜你！卷 1：LLM 核心原理与基础概念（共 8 篇）全部通关。

我们回顾一下你现在的装备：

Token：知道怎么算钱。
Temperature：知道怎么调脑洞。
推理原理：知道它在做填空题。
System Prompt：知道怎么给它洗脑。
结构化输出：知道怎么让它吐 JSON。
Embedding：知道它怎么理解语义。
Tool Calling：知道它怎么用工具。
多模态：知道它怎么看图读文档。

你已经从一个“小白用户”变成了一个懂原理的“准开发者”。
接下来，卷 2 将带你进入“Prompt 工程与工作流”的深水区。
我们将不再讨论原理，而是专注于实战技巧：如何写出价值百万的 Prompt？如何让 AI 帮你写出无 Bug 的代码？如何构建一套自动化的工作流？

准备好了吗？让我们开始“驯服”AI。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

02 SDXL：环境安装、模型下载与图片生成实战 ARM + Ubuntu 24 + RTX 4090

本文记录一次在 ARM + Ubuntu 24 + RTX 4090 环境下本地部署 SDXL 的完整过程，包括依赖安装、Hugging Face 镜像测试、模型最小集合下载、本地模型加载以及图片生成测试。实测表明，该环境下已经可以成功跑通 SDXL 本地推理流程并生成图片，虽然当前生成效果还有待进一步优化，但整体链路已经打通，可作为后续小说分镜图、图生视频和批量内容生产的基础模块。

AtomGit开源社区

从零构建 Go IM 系统：WebSocket + AI Agent + gRPC 全栈实践

每个用户独立维护对话上下文，超出阈值时异步压缩为摘要，保证历史不丢失的同时避免 token 无限增长：summary string// 历史摘要（已压缩部分）recent[]ai.ChatMessage // 最近未压缩的对话构建发送给 AI 的消息列表// 主人设 + 历史摘要合并为一条 system 消息// 拆成两条 system 消息某些提供商会返回空回复})