近日,上海人工智能实验室联合香港中文大学、复旦大学、上海交通大学、清华大学等多所顶尖高校,正式开源多模态一体化模型 InternVL-U

这款仅 4B 参数的轻量化模型,通过架构创新与数据范式革新,突破了现有统一多模态模型“训练成本高昂、能力不均衡”的两大瓶颈,重新定义了统一多模态模型的 "效率 - 性能" 边界。InternVL-U 以 "统一语境建模 + 模态专用模块化 + 解耦视觉表征" 三大核心设计,打破了 "大参数才能实现强能力" 的固有认知,在文本渲染、科学推理、空间建模等复杂场景中实现对 14B 级模型的超越,为多模态技术落地提供了高效、灵活的全新选择。

InternVL-U 已全面开源,提供完整的推理代码、模型权重与评测工具,欢迎大家使用。

GitHub 链接:

https://github.com/OpenGVLab/InternVL-U

HuggingFace 链接:

https://huggingface.co/InternVL-U/InternVL-U

生成编辑评测工具:

https://github.com/open-compass/GenEditEvalKit

文本编辑基准:

https://github.com/open-compass/TextEdit

更多内容详见技术报告:

https://arxiv.org/pdf/2603.09877

Image

Image

Image

InternVL-U 多场景图像生成与编辑能力展示。除高保真通用文生图和图像编辑外,模型还能够处理空间、感知、科学、幽默和推理等高语义密度任务,展现出覆盖多类视觉领域的统一多模态创作能力。

核心突破:重新定义统一多模态模型的 "效率 - 性能" 边界

InternVL-U 的诞生,源于对现有统一多模态模型两大痛点的精准破解:全原生模型训练成本高昂、全集成模型能力失衡。通过架构创新与数据范式革新,InternVL-U 实现了三大核心突破。

架构创新:模块化设计兼顾能力与效率

InternVL-U 采用分层级架构设计,各模块各司其职又深度协同,在 4B 参数规模下实现能力最大化。

Image

Image

Image

InternVL-U 的整体架构与视觉生成头设计。模型总体架构,突出统一上下文建模、模态特定的高效模块化设计,以及理解与生成解耦的视觉表征;视觉生成头采用双流 MMDiT 设计,包含双流注意力、双流 FFN,以及面向 VAE 图像潜变量和多模态上下文嵌入的统一 MSRoPE 位置编码。

数据革命:推理中心范式打通 "意图 - 执行" 鸿沟

针对传统生成模型 "重美学、轻语义" 的缺陷,InternVL-U 构建了覆盖 6 大场景的高质量数据合成管线,总数据量达千万级,其中核心的 "推理中心" 范式,通过思维链 CoT 将抽象指令转化为可执行步骤。

  • 文本中心数据:覆盖双语排版、图像内文本编辑、长文本渲染三大子场景,解决文字拼写错误、布局错乱问题;

  • 科学中心数据:涵盖物理、化学、生物、计算机科学等学科,支持公式可视化、算法流程图生成等专业任务;

  • 空间中心数据:包含立体几何运算、CAD 多视图转换、物体旋转等空间推理任务;

  • 幽默中心数据:支持表情包创作、梗图编辑,适配网络传播场景;

  • 推理中心数据:通过 CoT 将模糊指令具象化,如 "绘制光合作用示意图" 拆解为光照、气体交换、物质转化等关键步骤。

能力融合:从 "单一功能" 到 "全栈协同"

InternVL-U 首次在轻量化模型中实现了“理解—推理—生成—编辑”的端到端闭环,无需切换模型即可完成复杂任务链。例如,它能够解析专业指令如“生成 2-溴-4-甲基苯甲酸结构”(理解能力),调取化学知识推理分子结构中官能团的位置与连接方式(推理能力),精准绘制符合化学规范的分子结构示意图(生成能力),并支持修改取代基位置或调整分子结构的展示角度(编辑能力)。

五大核心能力深度解析,场景化性能拉满

文本生成与编辑:精准度媲美专业设计工具

针对多模态模型文本处理的痛点,InternVL-U 构建了专属文本处理管线,在 CVTG-2k、LongText-Bench 等权威基准中表现领先。

Image

InternVL-U 支持中英文、数字、数学符号的精准渲染,无拼写错误与字形畸变;在图像内文本编辑时,可完美保留背景纹理、光照效果,避免 "粘贴感";同时支持多区域文本同步编辑,如海报中标题、副标题、说明文字的批量修改。

Image

Image

文本渲染与编辑效果展示。InternVL-U 在中文、英文及数学符号的生成与编辑上表现出色,同时能够较好保持目标编辑区域外文本与视觉内容的一致性。

科学场景适配:成为科研与教育的 "可视化助手"

InternVL-U 在科学类任务中展现出强大的知识落地能力,通过结构化数据训练,可精准生成符合学科规范的可视化内容。

计算机科学领域,InternVL-U 支持二叉搜索树、图论、有限状态机等数据结构与算法的可视化,可展示插入、删除等动态过程;在数学领域,InternVL-U 可以生成符合比例的几何图形、函数图像,支持数独求解与逻辑推理可视化;在化学领域,InternVL-U 能够生成精确的分子结构、反应方程式,支持官能团编辑与化学键调整;在物理领域,InternVL-U 支持绘制磁场线、受力分析图、电路示意图,同时可实现不同电路类型的转换。

在 GenExam(科研图像生成基准)中,InternVL-U 以 22.9 的综合得分(含 CoT)领先所有开源统一模型,其中物理、化学学科得分分别达 24.2、23.5,接近专业科研绘图工具水平。

Image

Image

化学结构式生成与图结构属性编辑效果展示

空间感知与建模:突破 2D 局限,支持 3D 级推理

InternVL-U 具备强大的空间理解能力,能够处理复杂的三维空间任务,在多视角转换和立体几何运算等场景中表现突出。模型在立体几何方面支持旋转体生成、中心对称、平移、投影等运算,生成结果严格符合数学规范;在 CAD 设计中,可以基于单一视图预测其他视角,如正视图、俯视图和侧视图,保持结构一致性;在物体旋转操作中,InternVL-U 可支持任意角度旋转,并自动调整光影效果,确保物体与背景自然融合。

Image

空间感知图像编辑效果展示

趣味内容创作:轻量化也能玩出创意

针对大众创意场景,InternVL-U 支持表情包、梗图等趣味内容的快速生成与编辑,兼顾娱乐性与专业性。模型能够根据情绪描述,例如“害羞的小柴犬”,生成专属表情包,且风格可自由定制;在梗图编辑方面,可对现有图像添加文字或调整风格,例如将普通图片改为“网抑云”风格或傲娇登场风格;同时,生成内容在色彩、字体和布局上保持统一,无需二次编辑即可直接使用,实现趣味创作与专业呈现的无缝结合。

Image

趣味内容生成和编辑效果展示

复杂推理编辑:让模型 "想清楚再动手"

通过推理中心数据训练,InternVL-U 具备了复杂逻辑推导能力,能够处理需要多步思考的编辑任务。例如,在 temporal 推理中,输入“绘制明天的日历”,模型会自动计算日期并更新,同时保持日历样式一致;在文化推理中,为李白形象添加竖排诗句时,模型能够自动匹配书法字体并保持画面古风风格;在算法推理中,当在二叉搜索树中插入数值 88 时,模型会先计算插入位置,再高亮显示插入节点,严格遵循算法逻辑。

在 RISEBench(推理型编辑基准)中,启用 CoT 后,InternVL-U 综合得分从 3.6 提升至 9.4,超越了 Qwen-Image-Edit(8.9)等专用编辑模型,充分体现了其在复杂推理与多步编辑任务中的卓越能力。

Image

基于推理的图像编辑效果展示

技术解密:三大创新筑牢性能基石

解耦视觉表征:平衡理解与生成的核心密钥

InternVL-U 创新性地采用不对称视觉表征策略,理解任务使用预训练 ViT 提取高语义特征,确保复杂场景的理解精度;生成任务,通过独立 VAE 将图像压缩至 latent 空间,保留像素级细节,避免语义与重建的优化冲突。这种设计既发挥了现有 SOTA 视觉编码器的优势,又保证了生成质量,使模型在理解基准(如 MMMU)与生成基准(如 GenEval)中同时保持领先。

双流 MMDiT 生成头:兼顾效率与质量

视觉生成头采用双流结构设计,分别处理多模态语境特征与图像 latent 特征,关键创新包括:门控注意力机制,通过 sigmoid 门控调节注意力权重,缓解长上下文场景下的性能衰减;统一 MSRoPE 位置编码,采用 3D 编码(时间、高度、宽度),确保空间结构的精准保留;分辨率插值策略,支持 512-1024px 多分辨率生成,避免高分辨率时的拼接 artifacts。

三级渐进式训练:高效解锁全栈能力

模型采用 "预训练 - 持续预训练 - 微调" 的三级训练策略,确保能力稳步提升。第一阶段(生成头预训练):冻结骨干网络,训练生成头与投影器,激活多模态上下文条件理解能力;第二阶段(多分辨率预训练):固定骨干网络,训练多分辨率生成能力,筛选高美学样本;第三阶段(统一微调):全模型解冻,融入 CoT 数据,实现理解、推理与生成的深度协同。

总结:轻量多模态一体化的未来已来

InternVL-U 以 4B 参数实现了以往 10B + 参数模型才能达到的全栈能力,不仅在技术上突破了统一多模态模型的效率瓶颈,更在场景落地层面提供了灵活、低成本的解决方案。无论是科研教育中的专业可视化、智能办公中的文档生成,还是大众创意中的趣味内容创作,InternVL-U 都能以优异的性能满足需求。

快来解锁 InternVL-U 的强大能力,一起探索多模态技术的无限可能!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐