4B参数实现理解、推理、生成、编辑一体化！InternVL-U重磅开源

InternLM

401人浏览 · 2026-03-13 15:43:46

InternLM · 2026-03-13 15:43:46 发布

近日，上海人工智能实验室联合香港中文大学、复旦大学、上海交通大学、清华大学等多所顶尖高校，正式开源多模态一体化模型 InternVL-U。

这款仅 4B 参数的轻量化模型，通过架构创新与数据范式革新，突破了现有统一多模态模型“训练成本高昂、能力不均衡”的两大瓶颈，重新定义了统一多模态模型的 "效率 - 性能" 边界。InternVL-U 以 "统一语境建模 + 模态专用模块化 + 解耦视觉表征" 三大核心设计，打破了 "大参数才能实现强能力" 的固有认知，在文本渲染、科学推理、空间建模等复杂场景中实现对 14B 级模型的超越，为多模态技术落地提供了高效、灵活的全新选择。

InternVL-U 已全面开源，提供完整的推理代码、模型权重与评测工具，欢迎大家使用。

GitHub 链接：

https://github.com/OpenGVLab/InternVL-U

HuggingFace 链接：

https://huggingface.co/InternVL-U/InternVL-U

生成编辑评测工具：

https://github.com/open-compass/GenEditEvalKit

文本编辑基准：

https://github.com/open-compass/TextEdit

更多内容详见技术报告：

https://arxiv.org/pdf/2603.09877

InternVL-U 多场景图像生成与编辑能力展示。除高保真通用文生图和图像编辑外，模型还能够处理空间、感知、科学、幽默和推理等高语义密度任务，展现出覆盖多类视觉领域的统一多模态创作能力。

核心突破：重新定义统一多模态模型的 "效率 - 性能" 边界

InternVL-U 的诞生，源于对现有统一多模态模型两大痛点的精准破解：全原生模型训练成本高昂、全集成模型能力失衡。通过架构创新与数据范式革新，InternVL-U 实现了三大核心突破。

架构创新：模块化设计兼顾能力与效率

InternVL-U 采用分层级架构设计，各模块各司其职又深度协同，在 4B 参数规模下实现能力最大化。

InternVL-U 的整体架构与视觉生成头设计。模型总体架构，突出统一上下文建模、模态特定的高效模块化设计，以及理解与生成解耦的视觉表征；视觉生成头采用双流 MMDiT 设计，包含双流注意力、双流 FFN，以及面向 VAE 图像潜变量和多模态上下文嵌入的统一 MSRoPE 位置编码。

数据革命：推理中心范式打通 "意图 - 执行" 鸿沟

针对传统生成模型 "重美学、轻语义" 的缺陷，InternVL-U 构建了覆盖 6 大场景的高质量数据合成管线，总数据量达千万级，其中核心的 "推理中心" 范式，通过思维链 CoT 将抽象指令转化为可执行步骤。

文本中心数据：覆盖双语排版、图像内文本编辑、长文本渲染三大子场景，解决文字拼写错误、布局错乱问题；
科学中心数据：涵盖物理、化学、生物、计算机科学等学科，支持公式可视化、算法流程图生成等专业任务；
空间中心数据：包含立体几何运算、CAD 多视图转换、物体旋转等空间推理任务；
幽默中心数据：支持表情包创作、梗图编辑，适配网络传播场景；
推理中心数据：通过 CoT 将模糊指令具象化，如 "绘制光合作用示意图" 拆解为光照、气体交换、物质转化等关键步骤。

能力融合：从 "单一功能" 到 "全栈协同"

InternVL-U 首次在轻量化模型中实现了“理解—推理—生成—编辑”的端到端闭环，无需切换模型即可完成复杂任务链。例如，它能够解析专业指令如“生成 2-溴-4-甲基苯甲酸结构”（理解能力），调取化学知识推理分子结构中官能团的位置与连接方式（推理能力），精准绘制符合化学规范的分子结构示意图（生成能力），并支持修改取代基位置或调整分子结构的展示角度（编辑能力）。

五大核心能力深度解析，场景化性能拉满

文本生成与编辑：精准度媲美专业设计工具

针对多模态模型文本处理的痛点，InternVL-U 构建了专属文本处理管线，在 CVTG-2k、LongText-Bench 等权威基准中表现领先。

InternVL-U 支持中英文、数字、数学符号的精准渲染，无拼写错误与字形畸变；在图像内文本编辑时，可完美保留背景纹理、光照效果，避免 "粘贴感"；同时支持多区域文本同步编辑，如海报中标题、副标题、说明文字的批量修改。

文本渲染与编辑效果展示。InternVL-U 在中文、英文及数学符号的生成与编辑上表现出色，同时能够较好保持目标编辑区域外文本与视觉内容的一致性。

科学场景适配：成为科研与教育的 "可视化助手"

InternVL-U 在科学类任务中展现出强大的知识落地能力，通过结构化数据训练，可精准生成符合学科规范的可视化内容。

在计算机科学领域，InternVL-U 支持二叉搜索树、图论、有限状态机等数据结构与算法的可视化，可展示插入、删除等动态过程；在数学领域，InternVL-U 可以生成符合比例的几何图形、函数图像，支持数独求解与逻辑推理可视化；在化学领域，InternVL-U 能够生成精确的分子结构、反应方程式，支持官能团编辑与化学键调整；在物理领域，InternVL-U 支持绘制磁场线、受力分析图、电路示意图，同时可实现不同电路类型的转换。

在 GenExam（科研图像生成基准）中，InternVL-U 以 22.9 的综合得分（含 CoT）领先所有开源统一模型，其中物理、化学学科得分分别达 24.2、23.5，接近专业科研绘图工具水平。

化学结构式生成与图结构属性编辑效果展示

空间感知与建模：突破 2D 局限，支持 3D 级推理

InternVL-U 具备强大的空间理解能力，能够处理复杂的三维空间任务，在多视角转换和立体几何运算等场景中表现突出。模型在立体几何方面支持旋转体生成、中心对称、平移、投影等运算，生成结果严格符合数学规范；在 CAD 设计中，可以基于单一视图预测其他视角，如正视图、俯视图和侧视图，保持结构一致性；在物体旋转操作中，InternVL-U 可支持任意角度旋转，并自动调整光影效果，确保物体与背景自然融合。

空间感知图像编辑效果展示

趣味内容创作：轻量化也能玩出创意

针对大众创意场景，InternVL-U 支持表情包、梗图等趣味内容的快速生成与编辑，兼顾娱乐性与专业性。模型能够根据情绪描述，例如“害羞的小柴犬”，生成专属表情包，且风格可自由定制；在梗图编辑方面，可对现有图像添加文字或调整风格，例如将普通图片改为“网抑云”风格或傲娇登场风格；同时，生成内容在色彩、字体和布局上保持统一，无需二次编辑即可直接使用，实现趣味创作与专业呈现的无缝结合。

趣味内容生成和编辑效果展示

复杂推理编辑：让模型 "想清楚再动手"

通过推理中心数据训练，InternVL-U 具备了复杂逻辑推导能力，能够处理需要多步思考的编辑任务。例如，在 temporal 推理中，输入“绘制明天的日历”，模型会自动计算日期并更新，同时保持日历样式一致；在文化推理中，为李白形象添加竖排诗句时，模型能够自动匹配书法字体并保持画面古风风格；在算法推理中，当在二叉搜索树中插入数值 88 时，模型会先计算插入位置，再高亮显示插入节点，严格遵循算法逻辑。

在 RISEBench（推理型编辑基准）中，启用 CoT 后，InternVL-U 综合得分从 3.6 提升至 9.4，超越了 Qwen-Image-Edit（8.9）等专用编辑模型，充分体现了其在复杂推理与多步编辑任务中的卓越能力。

基于推理的图像编辑效果展示

技术解密：三大创新筑牢性能基石

解耦视觉表征：平衡理解与生成的核心密钥

InternVL-U 创新性地采用不对称视觉表征策略，在理解任务中使用预训练 ViT 提取高语义特征，确保复杂场景的理解精度；在生成任务中，通过独立 VAE 将图像压缩至 latent 空间，保留像素级细节，避免语义与重建的优化冲突。这种设计既发挥了现有 SOTA 视觉编码器的优势，又保证了生成质量，使模型在理解基准（如 MMMU）与生成基准（如 GenEval）中同时保持领先。

双流 MMDiT 生成头：兼顾效率与质量

视觉生成头采用双流结构设计，分别处理多模态语境特征与图像 latent 特征，关键创新包括：门控注意力机制，通过 sigmoid 门控调节注意力权重，缓解长上下文场景下的性能衰减；统一 MSRoPE 位置编码，采用 3D 编码（时间、高度、宽度），确保空间结构的精准保留；分辨率插值策略，支持 512-1024px 多分辨率生成，避免高分辨率时的拼接 artifacts。

三级渐进式训练：高效解锁全栈能力

模型采用 "预训练 - 持续预训练 - 微调" 的三级训练策略，确保能力稳步提升。第一阶段（生成头预训练）：冻结骨干网络，训练生成头与投影器，激活多模态上下文条件理解能力；第二阶段（多分辨率预训练）：固定骨干网络，训练多分辨率生成能力，筛选高美学样本；第三阶段（统一微调）：全模型解冻，融入 CoT 数据，实现理解、推理与生成的深度协同。

总结：轻量多模态一体化的未来已来

InternVL-U 以 4B 参数实现了以往 10B + 参数模型才能达到的全栈能力，不仅在技术上突破了统一多模态模型的效率瓶颈，更在场景落地层面提供了灵活、低成本的解决方案。无论是科研教育中的专业可视化、智能办公中的文档生成，还是大众创意中的趣味内容创作，InternVL-U 都能以优异的性能满足需求。

快来解锁 InternVL-U 的强大能力，一起探索多模态技术的无限可能！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig

AtomGit开源社区

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

蒙特卡洛方法是一种基于随机抽样的数值计算方法，通过多次随机抽样来估计系统的行为，从而得到系统的统计性质。在风光模型中，蒙特卡洛方法可以用来模拟风速、风向和太阳光照的变化，进而评估风力和太阳能系统在不同条件下的性能。

AtomGit开源社区

完全免费、绿色免安装的Windows轻量级硬件检测工具，零依赖查看电脑配置

📌 摘要：推荐一款免费免安装的Windows硬件检测工具SysView，单文件便携、零依赖，兼容Win7/10/11系统。支持一键读取CPU、内存、显卡等硬件参数，无广告、不上传隐私。特点包括毫秒级启动、纯本地运行、无需管理员权限，适合普通用户、DIY玩家及运维人员。开源项目，提供32/64位版本下载，点击即用，彻底关闭无残留。 🔗 核心优势： ✅ 永久免费无阉割 ✅ 绿色免安装，U盘随身带