SenseNova Skills Studio：为商汤SenseNova U1打造的本地办公技能包

oioihoii

205人浏览 · 2026-05-23 22:52:58

oioihoii · 2026-05-23 22:52:58 发布

SenseNova Skills Studio：为商汤SenseNova U1打造的本地办公技能包

本文围绕 sensenova-u1-fast（SenseNova U1） 与配套 sn-* 技能；在我自己开发的SenseNova Skills Studio 中本地使用技能包（申请 API Key）。

技能包仓库：OpenSenseNova/SenseNova-Skills · MIT 协议

过去两年，大模型能力的竞争焦点从「能不能答对一题」转向「能不能把一件事做完」。在真实办公场景里，用户很少只需要一段流畅的文字——他们需要：

一份能发给老板的 PPT，版式统一、配图合理、页与页之间叙事连贯；
一张能进汇报材料的 Excel 分析表，大文件不 OOM、结论有图表支撑；
一篇能经得起追问的行业报告，来源可追溯、数字冲突要先 reconcile 再落稿；
一张能直接传播的信息图，不是「随便画一张」，而是布局、风格、文字可读性都过关。

这些任务有一个共同特征：步骤长、约束多、中间产物必须落盘。只靠通用 Chat 或单次 API 调用，智能体很容易在第三步「即兴发挥」。问题不在模型不够聪明，而在于缺少可复用的执行契约。

探索了很久，我发现SenseNova Skills可以解决以上问题。

一、SenseNova U1是什么？能做什么？

SenseNova U1 是商汤日日新体系里的文生图模型，在开放平台上的常用模型 ID 为 sensenova-u1-fast。通过 SenseNova 开放平台的 API（https://token.sensenova.cn/v1）即可调用，与对话、识图共用同一套 SN_API_KEY（在控制台 · Keys 创建）。

U1 适合产出什么？

场景	说明
营销 / 运营物料	海报、横幅、社交媒体配图，支持常见宽高比
信息图	结构化版面 + 图中中文文案（需配合扩写与版式 skill）
PPT 创意页	每页一整张 16:9 视觉稿（创意模式）
系列图	同一风格下的多张分镜（系列批量）
简历视觉稿、风格模仿图	固定版式或参考图风格

单次调用 U1 API 只能得到「一张按 Prompt 生成的图」。真实办公里还需要：Prompt 扩写、版式选型、多轮试稿、VLM 质检、文件落盘——这些由本仓库的 sn-* 技能包在 U1 之上补齐；扩写、规划、识图等环节则使用 sensenova-6.7-flash-lite（SenseNova 6.7），与 U1 分工明确：

环节	默认模型	作用
出图	`sensenova-u1-fast`	最终像素交付
扩写 / 规划 / 成稿	`sensenova-6.7-flash-lite`	Prompt、大纲、研究报告文字
识图 / 质检	`sensenova-6.7-flash-lite`	图表理解、信息图与 PPT 分页评审

二、SenseNova Skills：U1 的配套技能包

2.1 是什么

SenseNova-Skills 是一组开源 Agent Skills（遵循 agentskills.io 规范）：每个技能一个目录 + SKILL.md，写清何时用、怎么用、产物放哪。它们通过底层 sn-image-base 调用商汤 API——生图走 U1，其余走 6.7——把模型能力变成可重复执行的工序，而不是聊天里随口一说。

同一套技能包，既可在 Agent 里对话触发，也可通过下文 Studio 点击运行（双入口、同一 .env）：

2.2 技能清单

U1图像与可视化

技能	作用
`sn-image-base`	底层封装：文生图、识图、文本优化（供其它图像 skill 调用）
`sn-image-doctor`	检查依赖、Key、模型是否可用
`sn-infographic`	专业信息图：评估 Prompt → 选布局/风格 → 多轮 U1 生成 → VLM 选优
`sn-image-imitate`	按参考图风格生成新图
`sn-image-resume`	简历文字 → 简历视觉图

U1演示文稿

技能	作用
`sn-ppt-entry`	统一入口：收集需求，生成 `task_pack.json`
`sn-ppt-standard`	标准模式：HTML 分页 + VLM 评审 → 导出 PPTX
`sn-ppt-creative`	创意模式：每页一张 U1 全图 PNG
`sn-ppt-doctor`	PPT 流水线环境检查

数据分析

技能	作用
`sn-da-excel-workflow`	多 Sheet Excel 清洗、统计、导出（编排器）
`sn-da-large-file-analysis`	十万行级大表流式处理
`sn-da-image-caption`	从图表截图提取数据

深度研究 + 搜索 + 报告

技能	作用
`sn-deep-research`	总控：规划 → 分维度取证 → 综合 → 成稿
`sn-research-planning` / `sn-dimension-research` / `sn-research-synthesis` / `sn-research-report`	研究各阶段
`sn-search-academic` / `sn-search-code` / `sn-search-social-cn` / `sn-search-social-en`	学术、开发者、中英文社交搜索
`sn-report-format-discovery` / `sn-md-to-html-report`	报告结构发现、MD 转离线 HTML
`sn-update`	在 Agent 环境中更新 sn-* 包

一条完整业务链示例见仓库 examples/memory-price-end2end-analysis：Excel 分析 → 深度研究 → PPT 汇报，由多个入口 skill 通过磁盘上的文件交接完成。

2.3 怎么使用这些技能

第一步：拿到 API Key

在 platform.sensenova.cn/console/keys 注册并创建 Key，写入仓库根目录 .env：

SN_BASE_URL=https://token.sensenova.cn/v1
SN_API_KEY=sk-你的密钥

方式 A ：在智能体里用

将 skills/ 下各目录安装到 Agent 的 skills 路径（如 OpenClaw：~/.openclaw/skills/，Cursor：.cursor/skills/）。
重启 Agent，在对话中用自然语言触发，例如：「用 sn-image-doctor 检查环境」「按 sn-infographic 做一张行业信息图」「启动 sn-deep-research 写尽调」。
Agent 会按 SKILL.md 调用脚本、读写 outputs/ 等目录中的产物。

详细安装可让 Agent 自行克隆仓库：「请安装 https://github.com/OpenSenseNova/SenseNova-Skills」。

方式 B ：不想自己配 Agent？

小浣熊已集成同源 U1 + 6.7 能力与 Cowork-Skill，云端开箱即用。本文重点介绍的开源路径，则适合要本地保管 Key、改 skill、接 Cursor/OpenClaw 的团队。

下面介绍我为此开发的 SenseNova Skills Studio（sn_studio）：在不装 Agent 的情况下，用浏览器完成配 Key、点按钮跑 skill、查看 U1 出图与 Excel/PPT 产物——同一套 sn-*，多一种图形化用法。

三、SenseNova Skills Studio：Skills 的本地适配工具

SenseNova Skills Studio 已开源，可直接获取源码、本地安装与二次开发：

项目	地址
Studio 仓库	github.com/aiyinluya/SenseNova-Skills-Studio
上游官方技能包	github.com/OpenSenseNova/SenseNova-Skills
申请 API Key	platform.sensenova.cn/console/keys

Studio 仓库在官方 SenseNova-Skills 基础上扩展了 sn_studio/ 本地控制面板及配套文档（详见仓库内 UPSTREAM.md）。协议：MIT；欢迎 Star、Issue 与 PR。

3.1 它解决什么问题

第二节里的技能包，默认要在 Cursor / OpenClaw 等 Agent 里通过对话触发。Studio 面向「想用 U1 和 sn-*，但不想先搭 Agent」的用户，定位很直接：

不改动 skills/ 里的 SKILL 逻辑，只在上层提供 Gradio 控制面板，把既有脚本变成可配置、可触发、可浏览产物的本地 Web 应用。

换句话说：技能包定义工序与验收标准；Studio 定义人机界面与任务调度——二者共用同一套商汤日日新 API 与 .env 配置。完整使用说明见开源仓库中的 README_CN_STUDIO.md。

3.2 使用前：注册 Key，克隆开源仓库即可本地运行

使用 Studio 不需要先搭 Agent 运行时。只需：

打开 SenseNova 开放平台 · API Keys 注册并创建密钥（亦可了解 Token 套餐）。

克隆 Studio 开源仓库（若本地已是双层目录，请进入含 pyproject.toml 的内层根目录）：

git clone https://github.com/aiyinluya/SenseNova-Skills-Studio.git
cd SenseNova-Skills-Studio
copy .env.example .env

编辑 .env，至少填入：

SN_BASE_URL=https://token.sensenova.cn/v1
SN_API_KEY=sk-你的密钥

安装并启动 Studio（Windows 可用一键脚本）：

powershell -ExecutionPolicy Bypass -File .\scripts\install_studio.ps1
python -m sn_studio

浏览器打开 http://127.0.0.1:7860 → 设置 Tab 保存并 测试 API → 即可在图像、PPT、数据分析等 Tab 调用全部已适配能力。

密钥仅保存在本机 .env，界面脱敏显示；推理与生图请求直连 token.sensenova.cn，不经过第三方中转。

3.3 Studio 是什么：本地 Web 控制台，不是又一个聊天框

SenseNova Skills Studio 运行在你本机（默认 http://127.0.0.1:7860），基于 Gradio 5 搭建。它不做「万能对话」，而是把第二节列出的 sn-* 能力拆成固定的 Tab + 表单 + 按钮：

该填什么的框都写好标签（Prompt、宽高比、扩写模式、Excel 路径……）
该跑多久的任务交给后台子进程，界面用阶段条告诉你「正在扩写 / 正在用 U1 出图」
该落盘的结果进 outputs/，Gallery 里能预览，本会话历史里能一键回看

因此它特别适合：运营、设计、分析同事不想学 Agent 话术，但希望稳定复用同一套 U1 信息图、系列图、Excel 探查能力的人；也适合开发者先在本机把 Key 和流水线跑通，再接到 Cursor 里做长流程编排。

3.4 七个 Tab：分别能帮你做什么

Tab	你会用到的情况	背后调用的能力
设置	第一次安装、换 Key、确认 U1/6.7 是否可达、跑环境诊断	`.env` 管理、`sn-image-doctor` / `sn-ppt-doctor`
图像	出单张图、信息图、系列图、模仿参考图、简历视觉稿	U1 + 图像流水线（见 §3.5）
PPT	从 brief 建 deck、按阶段生成 HTML/素材、调试某一页	`sn-ppt-entry`、`sn-ppt-standard` / `sn-ppt-creative`
数据分析	上传 Excel 先看有多少 Sheet、多少行，再决定要不要上完整分析 skill	`sn-da-excel-workflow` 探查能力
深度研究	建 `research/` 目录、写 `request.md`、把报告转成 HTML 预览	`sn-deep-research` 工件约定
搜索	快速查论文、GitHub、知乎/B 站等，结果以表格呈现	`sn-search-*` 系列
更新	从 Git 拉取最新 sn-* 技能包	仓库 `git pull`

复杂任务（例如深度研究全自动多轮取证、PPT 一口气生成二十多页）仍建议在 Cursor / OpenClaw 里加载完整 SKILL.md；Studio 的定位是把高频、可点击的能力做到顺手，而不是替代整个 Agent。

3.5 图像 Tab：最值得先体验的一块

图像 Tab 内再分五个子页，共用左右分栏布局：左侧输入与参数，右侧预览与会话历史——和常见生图产品一致，降低学习成本。

子页	你怎么用	U1 何时介入
文生图	写一句中文描述 → 选比例 → 生成	扩写完成后调用 U1
信息图	贴业务摘要或要点 → 自动选型版式风格 → 多轮出图并质检	多轮 U1 + 6.7 VLM 选优
系列批量	一句话主题 + 选择张数（3–8）→ 自动拆镜、统一风格、批量出图	全系列共享 seed，逐张 U1
风格模仿	上传参考图 + 新内容说明	识图后 U1 按风格重画
简历图	粘贴简历正文	结构化扩写后 U1 出视觉稿

生成过程中，右侧阶段条会依次提示（例如：分析内容 → 扩写 Prompt → 生成图像）；完成后可在 「扩写后的 Prompt」 折叠区查看实际发给 U1 的文案，便于复盘和二次修改。产物除显示在 Gallery 外，还会写入 outputs/studio/<模块>/<时间戳>/，本机可用 「打开输出文件夹」 直接定位文件。

文生图

批量生图

信息图

3.6 其它 Tab 如何用

PPT：填写角色、受众、页数，上传 pdf/docx/md 附件 → 生成 task_pack.json → 按阶段执行 run_stage（例如只跑大纲或只跑某一页素材），在浏览器里看 HTML 预览，产物在 ppt_decks/。
数据分析：指定 xlsx 路径 → 一键探查 Sheet 名与行数；大表会提示是否走 Parquet/流式策略，避免一上来内存爆掉。
深度研究：创建课题目录、编辑 request.md；完整多维度调研仍在 Agent 里跑，Studio 负责建架子、转 HTML 方便阅读。
搜索：选学术 / 代码 / 社交源，输入关键词 → 表格展示脚本返回的标题、链接、摘要，适合写报告前的快速摸底。

3.7 和 Agent 一起用时，Studio 扮演什么角色

同一仓库、同一 .env、同一套 sn-*：

场景	建议用 Studio	建议用 Cursor / OpenClaw
配 Key、测 API、出第一张 U1 图	✅	可选
调试信息图 / 系列图参数	✅	可选
Excel 行数探查、单次搜索	✅	✅
行业尽调全流程、PPT 全页循环	建目录、单步调试	✅ 主编排
修改 `SKILL.md`、提 PR	—	✅

Studio 是技能适配层上的图形壳；Agent 是对话编排层。二者互补，不是二选一。

四、Studio 集成 Skills原理

4.1 集成架构：UI 不侵入 Skill 仓库

Studio 采用薄适配层，保证技能包可独立演进、Studio 可单独升级：

任务状态与输出路径写入 outputs/.studio_jobs/jobs.json 与 outputs/studio/<模块>/，便于会话内回看与重启后恢复历史（图像系列等已按目录规范对齐）。

4.2 图像类 Skills：统一流水线 + 五个子入口

Studio 子页	对接技能	模型侧重	Studio 侧体验
文生图	`sn-image-base` + 扩写流水线	U1 生图 · 6.7 扩写	左栏 Prompt / 参数，右栏结果预览与会话历史
信息图	`sn-infographic`	6.7 评估选型 · U1 多轮 · 6.7 VLM 质检	同上；对齐 87 布局 × 66 风格
系列批量	拆解 + 风格统一 + 批量 U1	6.7 拆 N 镜 · 同 seed 系列	一句话主题 + 张数 3–8；产物在 `outputs/studio/series/<时间戳>/`
风格模仿	`sn-image-imitate`	VLM caption · 改写 · U1	参考图 + 新内容描述
简历图	`sn-image-resume`	结构化简历 → U1 视觉稿	粘贴简历文本一键出图

图像 Tab 与 openspec/prompt-pipeline-unified.md 对齐：评估 → 扩写 → 生图 阶段在界面右侧可见；扩写后的 Prompt 可折叠查看，便于运营与品牌同学做质量把关。

4.3 PPT、数据、研究、搜索：按 Skill 契约挂接

Studio Tab	集成方式	产物目录（示例）
PPT	调用 `sn-ppt-entry` 生成 `task_pack.json`，按阶段执行 `sn-ppt-standard` / `sn-ppt-creative` 的 `run_stage.py`	`outputs/studio/ppt/<deck_id>/`
数据分析	探查 Excel 行数 / Sheet，委派 `sn-da-excel-workflow` 子能力或大文件 skill	探查结果 + 导出表
深度研究	创建 `research/` 工件目录，对齐 `sn-deep-research` 的 `request.md` 等文件约定	`research/<topic>/`
搜索	聚合 `sn-search-academic` / `sn-search-code` / 社交搜索脚本 JSON 输出为表格	单次查询结果
更新	`git pull` 同步技能包	—

Studio 刻意不替代长链路 Agent 自主循环（例如深度研究全维度取证、PPT 26 页一键跑完）——这些在 Cursor / OpenClaw 加载完整 SKILL.md 更合适；Studio 负责参数收集、单阶段触发、产物浏览与调试，降低「第一次跑通」的成本。

4.4 与 Cursor / OpenClaw：同一套 Skills，两种入口

入口	适合
Studio	配 Key、测 API、出图、探表、PPT 分阶段调试、浏览 `outputs/`
Cursor / OpenClaw / Hermes	多文件编排、深度研究全流程、PPT 全页循环、改 `SKILL.md`

将 skills/* 安装到 ~/.openclaw/skills/、.cursor/skills/ 等目录后，Agent 按 SKILL.md 触发词加载技能；与 Studio 共用同一 .env 与模型 ID，不存在「两套能力」——只是 GUI 适配 vs 对话编排 的差别。

五、展望

更深的一体化预览 — 研究 / PPT / 系列图在 Studio 内直接预览 HTML、manifest 与多图网格，减少跳转资源管理器。
可选「拆解预览」 — 系列批量、信息图在提交前展示 LLM 拆解的 N 条分镜，可编辑再生成。
模板市场 — 将 sn-infographic 案例画廊、行业报告 report_shape 沉淀为 Studio 可选模板。
团队配置 — 只读分享 .env 之外的「工序预设」（扩写模式、默认宽高比、品牌负向词）。
与 Agent 运行时互认任务 — jobs.json 与 Agent 侧工件目录双向索引，Studio 点开即可续跑 Agent 未完成的任务。

无论 Agent 生态如何演进，Skills 作为「可交付工序」的抽象不会过时；Studio 的角色，是把这套抽象持续翻译成普通人也能点得动的本地工具——而商汤日日新 API 始终是底下那块确定的算力底座。

六、结语

SenseNova Skills 用 sn-* 技能包把商汤日日新模型浇铸成可审计的办公工序；SenseNova Skills Studio 则是这套工序面向本机的 Skills 适配工具——注册 API Key，写入 .env，启动 python -m sn_studio，即可在浏览器里调用图像、PPT、Excel、研究与搜索能力，无需先学会在 IDE 里 @skill。

若你已在用 Cursor 或 OpenClaw，Studio 是最佳的配环境、试 API、看产物伴侣；若你只想先把一张 U1 图、一张信息图或一份 Excel 探查跑通，Studio alone 就足够。技能包开源可改，适配工具持续迭代——欢迎 Star、Issue 与 PR。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐