Qwen 多模态模型中图片 Token ID 与向量的核心理解

文本 Token 是 “语言的最小语义单元”,图片 Token 是 “视觉的最小特征单元”

—— 两者最终都会被映射到同一维度的向量空间,让模型能 “读懂” 图文的关联语义。

维度 文本 Token(如 Qwen 的中文分词) 图片 Token(Qwen-VL 的视觉 Token)
拆分方式 按语义拆分(字 / 词 / 子词,如 “手机”→[手,机]) 按空间特征拆分(网格切块→特征编码)
Token ID 含义 对应词典里的语义符号(如 ID=1001→“手”) 对应视觉特征的编码索引(无字面含义)
向量本质 语义向量(代表这个词的含义) 视觉特征向量(代表这个区域的视觉特征)

文本 Token 是 “语言积木”,图片 Token 是 “视觉积木”,向量是 “积木的特征描述”,Qwen-VL 就是用这些积木拼出图文关联的逻辑。

Qwen-VL 中图片 Token 的生成过程(核心逻辑)

每个 Patch 通过卷积 / Transformer 层提取视觉特征(比如 768 维的特征向量,代表这个 Patch 的颜色、纹理、边缘、形状等信息);

• Qwen-VL 内置一个 “视觉词典”(和文本词典类似,但存的是视觉特征模板),把每个 Patch 的特征匹配到词典中最接近的模板,得到一个视觉 Token ID;

Token ID 是 “索引”,向量是 “本质” ◦

Token ID 只是一个数字标签(比如 ID=20001),本身无意义,只是用来查 “视觉词典”; ◦ 向量才是核心:768 维的向量,每一个维度代表一个视觉特征维度,所有维度组合起来,就唯一描述了这个 Patch 的视觉特征。

图片 Token 向量和文本 Token 向量 “在同一语义空间”

Qwen-VL 的核心设计是 “图文对齐”:

  • 训练时,模型会学习 “文本 Token 向量” 和 “图片 Token 向量” 的关联(比如文本 “红色苹果” 的向量,和图片中 “苹果 Patch” 的向量会被拉到相近位置);

  • 推理时,模型能通过向量的相似度,理解 “文字描述” 和 “图片内容” 的对应关系。

VLM在车辆保险理赔的应用

视频基础模型

视频多模态注释框架 VidCap

InternVideo2 预训练

模型表现:时间动作识别

模型表现:混淆动作识别

模型表现:视频中心对话

MinerU

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或

JSON 格式。由上海人工智能实验室OpenDataLab 团队 开发。

核心技术

• 布局检测:基于 LayoutLMv3 微调,识别文本、表格、图片等区域。

• 公式识别:使用 YOLOv8 检测公式,UniMERNet 模型转换 LaTeX。

• OCR 增强:采用 PaddleOCR 提高文本识别准确率。

应用场景

• 大模型训练:为书生·浦语等模型提供高质量语料。

• 学术研究:提取论文、教材中的关键信息。

• 法律与金融:解析合同、研报等结构化数据。

MinerU:网页信息解析

CASE:VLM在寿险里的应用,多语言识别

CASE:VLM在车险里的应用

CASE:车辆剐蹭视频理解

Q&A

Q:老师,啥时讲解下 deep agents + skills ?

单Agent + Skills

LangChain (deep agents) +Skills

Q:教师模型如何体现他的作用呢在代码中?在代码中都没看到教师模型,蒸馏和GRPO的过程都没看到

教师模型 => 帮我撰写训练集 <query, answer> 知识蒸馏

Q:单agent如果功能太多会不会导致注意力不集中反而不如分发agent+多专业agent协作好

单Agent + Skills 是当前主流

多Agent 也有问题,

Q:金融行业意图识别只需要SFT就可以吗?准备的数据应该什么格式

<query, answer>

Q:教师模型和蒸馏和GRPO 是分开独立工作的对吗老师? 教师模型先把数据弄好,再做模型蒸馏 GRPO这些对吗?

Qwen3.5

tokenizer

id

32700 个文本ID

image => tokenizer id, text => text tokenizer id

64000个

信息表达的统一 => tokenizer id

Q: “图像的tokenizer”--->变成了text tokenizer吗?

input token =>output token (只输出了text)

<query, answer>

<text+image, answer>

所以不管图像还是视频最终都是转化为文字,本质对文字进行处理吗?

语义理解(token) =>

input(text, image) => model(统一编码,token) =>output

医疗的规范格式?

多模态图像理解,现阶段可能还不成熟

Step1,整理一个测试集 <query, image => answer>

Step2,通过 prompt + LLM,进行回答

Step3, 人工进行审核 =》 是否某种能力缺失

进行人工标注,整理成新的训练 <query, image =>人的answer>

使用unsloth 进行微调;

qwen-vl => 回答一些问题 => 找到回答质量不太好的

蒸馏gemini 对这些问题,重新回答 => 梳理出 <query, image, answer>

Q:数据标注工作

业务同事来标注(冷启动,作为种子数据) =>

业务一般只给出基本原则,具体的还是要开发做

Q:为什么不直接用gemini而让qwen-vl去学习gemini

gemini 成本高

gemini 回答也不一定都对 (初步标注)=> 人工修正

产品标

openclaw + gemini/GPT5.4 =>

成本低;

Q:能不能详细讲一下如何自动化批量生成标注数据

大模型帮我们进行标注

qwen-vl 的训练

gemini进行标注 <query, image => answer>

Q:InternVideo2 ,理解视频是直接输入MP4,还是要从原文件抽帧输入多图?

直接给mp4

Q:openclaw能免费使用吗?

不能,它需要其他的大模型

Q:每一步完成的标准是什么?

训练集 和 验证集进行评估,如果 验证集的loss 很久没有下降了(比如 最近20轮) => 已经学好

Q:mineru 算大模型吗?

mineru不是生成式AI,

layout + ocr 的文本识别模型

Q:qwen vl和DS有什么区别

qwen-vl 多模态大模型(支持 图像,文本)=> 文本回答

deepseek 文本 => 文本

Q:没有看懂最后需要的结果是什么

mineru => .md .json

input: pdf, html, docx, ppt

Q:image -> image token, text -> text token, 这两类token怎么计算语义相关性

embedding

text input => 多模态embedding 1024维度

image input => 多模态embedding 1024维度

Q:多模态模型怎么做RAG?

rag 提供补充上下文

query + RAG => LLM

text input => 多模态embedding 1024维度

image input => 多模态embedding 1024维度

RAG知识库 里面会有很多chunks,也都有chunks embedding

Q:学校作业批改照片识别,使用哪种OCR方法识别准确高

qwen-vl

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐