模型仓库:https://github.com/OpenSenseNova/SenseNova-U1
HuggingFace:https://huggingface.co/sensenova/SenseNova-U1-8B-MoT
官方文档:https://platform.sensenova.cn/docs
在线体验:https://unify.light-ai.top/
许可证:Apache-2.0


一、模型概览

SenseNova U1 是商汤科技于 2026 年 4 月 28 日发布并开源的新一代原生多模态大模型,基于自研 NEO-Unify 架构,在单一架构内统一了多模态理解、推理与生成能力。它标志着多模态 AI 从"模态拼接"到"真正统一"的根本性范式转变——不再依赖适配器在模态间翻译,而是让语言和视觉在同一架构内原生协同思考与行动。

sensenova-u1-fast 是 SenseNova U1 在商汤日日新平台上的快速推理版本,针对高吞吐、低延迟场景优化,通过 API 即可调用,适合生产环境集成。

SenseNova U1 架构

1.1 NEO-Unify 核心架构

NEO-Unify 从第一性原理出发设计,彻底消除了传统多模态模型中的视觉编码器(VE)和变分自编码器(VAE),让像素-词语信息在端到端训练中深度关联:

  • 端到端统一建模:语言和视觉信息作为统一复合体建模,消除模态间的翻译损耗
  • 语义与像素兼得:在保持像素级视觉保真度的同时保留语义丰富性
  • 原生 MoT 高效推理:通过原生 Mixture-of-Token 机制实现跨模态高效推理,最小化模态冲突

1.2 开源模型矩阵

模型 参数量 说明
SenseNova-U1-8B-MoT-SFT 8B MoT SFT 版本(×32 下采样比)
SenseNova-U1-8B-MoT 8B MoT 最终版本(经 T2I RL 训练)
SenseNova-U1-8B-MoT-LoRA-8step-V1.0 0.4B LoRA 微调权重
SenseNova-U1-A3B-MoT-SFT A3B MoT MoE 架构 SFT 版本
SenseNova-U1-A3B-MoT A3B MoT MoE 架构最终版本

二、核心能力

2.1 文生图(Text-to-Image)

SenseNova U1 不仅能生成高质量的通用图像,还具备独特的推理生图能力。模型在生成图像前会先进行显式推理——理解指令、分析物理规律、建立构图框架、设定光影配色、锁定风格——然后才输出最终图像。

推理生图示例:孔雀开屏

例如输入"一只雄孔雀试图吸引雌性",模型会推理出雄孔雀通过展开尾羽进行求偶展示,然后生成一张尾羽完全展开的孔雀照片,而非简单地绘制一只孔雀。

2.2 交错图文生成(Interleaved Generation)

SenseNova U1 可在单次生成中产出文本与图像交错排列的连贯内容,适用于图文教程、旅行日记、信息图表等场景。例如"给我一份番茄炒蛋的新手图解教程",模型会生成步骤文字配合对应插图。

交错图文生成示例

2.4 高密度信息图渲染

模型在信息图(Infographic)生成方面表现尤为突出,可生成知识插画、海报、演示文稿、漫画、简历等高密度视觉布局,在 BizGenEval 和 IGenBench 等信息图基准上达到开源 SOTA。

信息图生成示例

2.5 视觉理解(VQA)

除生成能力外,SenseNova U1 同时具备强大的视觉理解能力,可对图像进行深度问答分析,实现理解与生成的真正统一。


三、本地部署教程

3.1 环境准备

# 克隆仓库
git clone https://github.com/OpenSenseNova/SenseNova-U1.git
cd SenseNova-U1

# 使用 uv 安装依赖(推荐)
uv pip install -e .

3.2 文生图推理

python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --prompt "一只金色的凤凰在日出时飞翔" \
  --width 2048 --height 2048 \
  --cfg_scale 4.0 \
  --cfg_norm none \
  --timestep_shift 3.0 \
  --num_steps 50 \
  --output output.png \
  --profile

默认分辨率为 2048×2048(1:1),支持多种宽高比。高质量信息图生成建议先进行 Prompt 增强。

3.3 图像编辑推理

python examples/editing/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --prompt "Change the animal's fur color to a darker shade." \
  --image examples/editing/data/images/1.webp \
  --cfg_scale 4.0 --img_cfg_scale 1.0 \
  --cfg_norm none --timestep_shift 3.0 \
  --num_steps 50 --output output_edited.png \
  --profile --compare

💡 建议先将输入图片预缩放至约 2048×2048 分辨率以获得最佳质量。

3.4 交错图文生成

python examples/interleave/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --prompt "我想学做番茄炒蛋,请给我一份新手友好的图解教程。" \
  --resolution "16:9" \
  --output_dir outputs/interleave/ \
  --stem demo --profile

3.5 消费级显卡方案:GGUF 量化 + VRAM 模式

对于单张消费级 GPU 用户,两种方案可组合使用以降低显存占用:

GGUF 量化(Q3/Q4/Q5/Q6/Q8 多种精度):

uv pip install -e ".[gguf]"

python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --gguf_checkpoint /path/to/SenseNova-U1-8B-MoT-Merger-Q4_K_M.gguf \
  --prompt "A male peacock trying to attract a female" \
  --output output.png

VRAM 模式(CPU-GPU 分层卸载):

模式 行为 适用场景
full(默认) 全部在 GPU 显存充足,速度最快
low 同步逐层 CPU↔GPU 交换 最低显存占用
balanced 异步预取,重叠 H2D 拷贝与计算 显存紧张但需兼顾速度
# 推荐:Q4 量化 + balanced 模式,适合 10-12GB 消费级显卡
python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --gguf_checkpoint /path/to/SenseNova-U1-8B-MoT-Merger-Q4_K_M.gguf \
  --vram_mode balanced \
  --prompt "..." --output output.png

四、API 调用

4.1 商汤日日新平台 API

通过 SenseNova 平台 调用 sensenova-u1-fast,无需本地 GPU:

import openai

client = openai.OpenAI(
    api_key="YOUR_SENSENOVA_API_KEY",
    base_url="https://api.sensenova.cn/v1"
)

# 文生图
response = client.images.generate(
    model="sensenova-u1-fast",
    prompt="一只金色凤凰在日出时飞翔,中国水墨画风格",
    size="1024x1024",
    n=1
)

image_url = response.data[0].url
print(f"Generated image: {image_url}")

完整 API 文档参见:https://platform.sensenova.cn/docs

4.2 API 参数说明

参数 说明 示例
model 模型名称 sensenova-u1-fast
prompt 生成提示词 中文/英文均可
size 图像尺寸 1024x10241536x10241024x1536
n 生成数量 1-4
response_format 返回格式 urlb64_json

五、Agent 接入

5.1 OpenClaw 接入(SenseNova-Skills)

商汤官方提供了 SenseNova-Skills 插件,支持 OpenClaw 代理直接调用 SenseNova U1 的生成能力:

# 安装 OpenClaw 技能插件
openclaw skill add sensenova-u1

安装后,代理可通过自然语言触发生图:"用 SenseNova U1 生成一张关于 AI 发展的信息图"

5.2 MCP Server 接入

通过 MCP 协议接入,任何 MCP 兼容客户端(Claude Code、Cursor、Cline 等)均可调用:

{
  "mcpServers": {
    "sensenova-u1": {
      "command": "npx",
      "args": ["-y", "@sensenova/mcp-server-u1"],
      "env": {
        "SENSENOVA_API_KEY": "YOUR_API_KEY"
      }
    }
  }
}

5.3 自定义 Agent 集成

基于 OpenAI 兼容接口,任何支持 OpenAI API 格式的 Agent 框架均可快速接入:

from openai import OpenAI

def generate_image_for_agent(prompt: str, agent_context: str = ""):
    """Agent 调用生图工具的封装函数"""
    client = OpenAI(
        api_key="YOUR_SENSENOVA_API_KEY",
        base_url="https://api.sensenova.cn/v1"
    )
    
    enhanced_prompt = f"{agent_context}\n{prompt}" if agent_context else prompt
    
    response = client.images.generate(
        model="sensenova-u1-fast",
        prompt=enhanced_prompt,
        size="1024x1024",
        n=1
    )
    
    return response.data[0].url

六、在线网站体验

6.1 Light-AI Unify

🔗 https://unify.light-ai.top/

Light-AI Unify 提供了 SenseNova U1 的第三方在线体验入口,主打"理解·生成·统一"理念,支持智能生成工作台和信息图制作功能。

Light-AI Unify 界面


七、性能与基准

SenseNova U1 在多个基准上达到开源 SOTA:

  • 文生图:OneIG(中英文)、LongText(中英文)、CVTG 等基准上的性能-延迟比领先
  • 信息图:BizGenEval(Easy/Hard)、IGenBench 上达到开源最优
  • 理解+生成统一:单一模型同时登顶理解和生成榜单,此前需要分别使用专用模型

以 8B 参数量实现媲美商业模型的效果,成本效率极高。

性能基准对比


八、总结

SenseNova U1 凭借 NEO-Unify 架构实现了多模态理解与生成的真正统一,在文生图、图像编辑、交错图文、信息图渲染等任务上均达到开源 SOTA 水平。通过 GGUF 量化 + VRAM 分层卸载,10-12GB 消费级显卡即可本地运行;通过日日新平台 API 和 MCP 协议,可快速集成到 Agent 工作流中;通过 SenseNova Studio 和 Light-AI Unify,零门槛即可在线体验。无论你是开发者、设计师还是内容创作者,SenseNova U1 都提供了适合的接入路径。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐