目录

为什么需要专门的科学基座大模型?

1. 能力坐标系的困境

2. Intern S1的目标定位

科学多模态架构:专为科研场景设计

1. 三大输入通道

2. 架构优势

高质量科学语料:2.5 万亿 token 的专业知识注入

1.数据规模与构成

2. 六大科学领域覆盖

科学数据挖掘:两条核心管线

1. PDF 文档解析管线

2. 网页数据召回过滤管线

混合强化学习:兼顾严谨性与创造性

1. 科学任务的多样性挑战

2. MOR 混合奖励模型

3. 动态权重调整

系统工程优化:全链路 FP8 精度

1. 强化学习的成本挑战

2. FP8 全链路支持

实际应用表现

1. 科学任务能力

2. 轻量化版本

科学发现平台:从模型到科研操作系统

1. 四大能力面

2. 科研全流程覆盖

总结


本节课由上海人工智能实验室团队授课,针对 Intern S1 科学多模态大模型——一个既具备顶尖通用智能,又拥有深厚科研素养的全能型科学基座模型展开深入讲解。

本节前置课程为《AI 模型导论与推理基础原理》《AI 模型导论与推理基础原理》,有需要的同学可以点击查看往期内容。

为什么需要专门的科学基座大模型?

1. 能力坐标系的困境

将模型能力置于二维坐标系中:

  • • 横轴:通用能力(日常对话、代码写作等)

  • • 纵轴:科学能力(数学推理、化学预测、物理建模等)

传统模型大多集中在右下角——通用能力强但科学能力弱;
专用科学模型则位于左上角——科学专业但通用性差。

2. Intern S1的目标定位

Intern S1 的目标是向右上角突破,不以牺牲通用能力为代价换取科学能力,而是通过通专融合实现两者兼顾:

  • • 全能高手:在通用多模态任务上超越现有开源模型

  • • 科学明星:在专业科学任务上超越甚至对标闭源模型

科学多模态架构:专为科研场景设计

1. 三大输入通道

Intern S1 采用专门的多模态架构,针对科学场景的三类典型输入设计了独立通道:

视觉模块

  • • 核心技术:自研 IntVIT 视觉编码器

  • • 应用场景:论文图表、气象图、显微图像等科学可视化内容

  • • 优势:专门针对科学图表的复杂结构进行优化

动态分词器

  • • 核心问题:传统静态分词器对科学符号序列处理效果差

  • • 解决方案:先识别字符串模态,再按模态选择分词策略

  • • 具体实现:

    • • SMILES分子式:<smiles>CC1=CC=CC=C1</smiles>

    • • FASTA蛋白质序列:<fasta>MKTVRQ...</fasta>

  • • 效果:SMILES 数据压缩率提升70%,显著降低计算开销

图片

时序模块

  • • 应用场景:地震波、脑电波等连续时间序列信号

  • • 技术方案:专用时序编码器将连续信号转换为大模型可理解的 token 表示

2. 架构优势

这种分流投影的设计避免了将所有科学数据"一股脑"塞进文本 tokenizer 的问题,确保不同模态的科学数据都能得到最合适的处理。

高质量科学语料:
2.5 万亿 token 的专业知识注入

1.数据规模与构成

图片

2. 六大科学领域覆盖
  • • 重点调控六大科学领域的数据分布:

数学、物理、化学、生命科学、材料科学、地球科学

  • • 差异化策略

    • • 生命科学:数据量大但噪音多,采用更严格的过滤策略

    • • 材料科学:数据相对稀缺,采用更宽松但可控的召回筛选

科学数据挖掘:两条核心管线

1. PDF 文档解析管线

核心挑战:科学PDF文献排版复杂,包含大量公式、符号,解析质量直接影响模型学习效果。

创新方案:页面级混合解析流水线

  • • 低成本解析器(Manus):处理大多数普通页面

  • • 高成本解析器(InterV):专门处理包含复杂公式、符号的疑难页面

  • • 智能分流:基于公式密度和复杂度自动选择解析器

  • • 统一后处理:规范化公式块边界、重排阅读顺序、修复乱码

2. 网页数据召回过滤管线
  • • 核心挑战:网页科学内容含金量低,充斥广告和非科学内容。

  • • 创新方案:域名级别智能质检

    • • 域名分组:将同一域名下的网页打包处理

    • • 抽样质检:从每个域名抽取代表性页面进行质量评估

    • • 大模型 Agent:判断网站科学价值,决定保留、丢弃或重写

    • • 标签扩展:将抽样结果扩展到整个域名

  • • 质量保障:通过分布内/分布外验证集不断优化质检指令,确保过滤准确率达到要求。

混合强化学习:兼顾严谨性与创造性

1. 科学任务的多样性挑战
  • • 易验证任务:数学题、化学方程式等有明确答案

  • • 难验证任务:科研计划、实验构想等开放性问题

2. MOR 混合奖励模型

针对不同类型任务采用不同的奖励机制:

  • • 易验证任务

    • • 规则验证器:直接验算答案正确性

    • • 大模型裁判:更强模型对比输出与标准答案

  • • 难验证任务

    • • 奖励模型:如 PPO-7B 等模型评估输出质量

    • • 评估维度:逻辑自洽性、步骤可执行性、实验设计完整性

3. 动态权重调整

MOR 算法会动态调整各类奖励的权重,既保持科学严谨性,又不失发散创新能力:

  • • 该硬则硬:数学题等任务强调答案准确性

  • • 该软则软:科研写作等任务注重逻辑性和创造性

系统工程优化:全链路 FP8 精度

1. 强化学习的成本挑战
  • • 主要瓶颈:Rollout 轨迹采样阶段的吞吐量和带宽压力

  • • MoE 模型特性:长序列、多专家路由增加系统负担

2. FP8 全链路支持

Intern S1 在全训练流程中采用8位浮点数精度,显著提升 Rollout 吞吐量,降低强化学习整体成本。

实际应用表现

1. 科学任务能力
  • • IMO 2025 数学竞赛:达到人类选手银牌水平,能给出完整严密的证明过程

  • • 化学文献解析:不仅能提取文字,还能完美解析复杂化学反应路径图

  • • 天文学识别:能准确识别黑洞吸积盘特征,排除猫、甜甜圈等干扰项

图片

2. 轻量化版本
  • • Intern S1 Mini:8B 参数轻量版本

  • • 硬件要求:单张 24GB 显存消费级显卡(如 RTX 4090)

  • • 性能表现:在化学、材料等任务上超越多个 70B 大模型

科学发现平台:从模型到科研操作系统

Intern S1 不仅是模型,更是科学发现平台的核心引擎:

1. 四大能力面
  • • 科学研究助手:文献梳理、信息整合、想法生成

  • • 科学数据广场:汇集 200PB 清洗好的 AI-ready 科学数据

  • • 科学智能体:自动拆解复杂任务,调用工具完成子任务

  • • 科学模型开发:训练、微调、评测、算力协同一体化

2. 科研全流程覆盖

图片

总结

Intern S1科学多模态大模型代表了 AI for Science 的新范式——通过科学多模态架构 + 高质量科学语料 + 混合强化学习 + 系统工程优化的协同增益,Intern S1 成功实现了通用能力与科学能力的双重突破,为科研工作者提供了强大的 AI 助手。希望更多研究者能够掌握这一工具,在各自领域做出"很酷的成果"。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐