腾讯:LLM初始化视觉编码器突破效率极限

📖标题:Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
🌐来源:arXiv, 2603.06569v1
🌟摘要
视觉语言模型(VLM)的开发在很大程度上依赖于模型大小的缩放,这阻碍了在计算受限的移动和边缘设备(如智能手机和机器人)上的部署。在这项工作中,我们探索了紧凑型(如2B和8B)VLM的性能限制。我们挑战了流行的做法,即最先进的VLM必须依赖于通过大规模对比预训练(如CLIP/SigLIP)初始化的视觉编码器。我们发现了一个客观的不匹配:对比学习,针对歧视进行了优化,强制执行粗略和类别级的不变性,这些不变性抑制了密集字幕和复杂VLM推理所需的细粒度视觉提示。为了解决这个问题,我们介绍了Penguin-VL,它的视觉编码器是从纯文本LLM初始化的。我们的实验表明,Penguin-Encoder是传统对比预训练的更好替代方案,为多模态理解释放了更高程度的视觉保真度和数据效率。在各种图像和视频基准测试中,Penguin-VL在数学推理方面的性能可与领先的VLM(例如Qwen3-VL)相媲美,并在文档理解、视觉知识和多视角视频理解等任务中超越它们。值得注意的是,这些收益是通过轻量级架构实现的,表明改进的视觉表示——而不是模型缩放——是性能的主要驱动力。我们的消融表明,企鹅编码器始终优于contrastive-pretrained编码器,保留了对密集感知和复杂推理至关重要的细粒度空间和时间线索。这使得它成为计算效率高的虚拟机的强大替代方案,并在resource-constrained环境中实现高性能。
🛎️文章简介
🔸研究问题:如何在计算受限的边缘设备上,通过改进视觉表示而非单纯扩大模型规模,来构建兼具高效性与强大多模态理解能力的紧凑视觉语言模型?
🔸主要贡献:论文提出了 Penguin-VL,首创直接用纯文本 LLM 权重初始化视觉编码器,证明了该策略在细粒度感知和推理任务上优于传统的对比学习预训练编码器。
📝重点思路
🔸提出 Penguin-Encoder 架构,直接将纯文本 LLM(如 Qwen3)的因果自注意力机制改造为双向全注意力,并引入 2D-RoPE 位置编码以适配视觉输入。
🔸设计混合监督预训练策略,结合语言建模交叉熵损失与包含幅度、方向及关系约束的重建蒸馏损失,利用无标签数据增强视觉特征的结构完整性。
🔸构建统一训练流程,涵盖从低分辨率引导到高分辨率微调的视觉编码器训练,以及融合文档、图表和多粒度视频数据的两阶段指令微调。
🔸开发时序冗余感知(TRA)令牌压缩机制,动态区分关键帧与中间帧并分配不同令牌预算,在保证长视频 temporal 连贯性的同时大幅降低计算开销。
🔎分析总结
🔸实验表明,基于 LLM 初始化的编码器在文档理解、图表分析及复杂视频推理任务上显著超越 SigLIP 等对比学习预训练编码器,尤其在保留空间和时间细粒度线索方面优势明显。
🔸消融研究证实,关系损失(Relation Loss)对于捕捉图像块间的交互至关重要,能显著提升模型在密集感知任务中的表现;LLM 初始化提供了更优的特征分布起点,加速了模态对齐。
🔸在 2B 和 8B 参数量级下,Penguin-VL 在数学推理上与顶尖模型持平,而在 OCR、视觉知识及长视频理解等多个基准测试中取得SOTA成绩,验证了架构改进比参数堆叠更能驱动性能提升。
🔸模型展现出卓越的数据效率,仅需约2.4亿样本即可超越依赖数百亿样本训练的对比学习编码器,证明了生成式对齐目标更适合多模态推理任务。
💡个人观点
论文打破了“视觉编码器必须依赖大规模对比学习预训练”的思维定势,通过复用文本LLM的语义先验和生成式架构,成功解决了判别式预训练与生成式推理之间的目标错位问题。
🧩附录




AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)