前言:这不是又一个把截图塞进 PPTX 的玩具,而是一个由注册会计师(CPA)打造的、基于 SVG→DrawingML 精确转换的工程化工作流。丢进去一份 PDF 或一个 URL,AI 会生成真正的 PowerPoint 原生形状——可点击、可编辑、可改色,甚至带原生动画和语音旁白。

痛点:破解 AI PPT 原生可编辑的最后一公里

现有 AI 演示工具在导出 PPTX 时普遍存在可编辑性问题。Gamma 支持 PPTX 导出但复杂布局易崩坏 ;Tome 主打网页叙事、PPTX 导出能力薄弱且已退出该市场 。PPT Master 通过 SVG→DrawingML 的精确转换,避免了这些"最后一公里"的格式陷阱。

Hugo He(项目作者,注册会计师、咨询工程师)每周要审阅数百页幻灯片,他对此的吐槽非常精准:

"如果一个文件不能在 PowerPoint 里打开并编辑,它就不应该叫 PPT。"

市面上的 AI 演示工具大致分四类:

类型 原理 能否逐元素编辑
模板填充 固定模板插数据 部分,受限于模板
图片嵌入 每页一张大图塞进 PPTX ❌ 纯图片
HTML 演示 网页版幻灯片 ❌ 不是 PPTX
原生可编辑(PPT Master) AI 生成 SVG → 转换为 DrawingML ✅ 每个形状都是原生对象

PPT Master 选择了第四条路——也是技术难度最高的一条。

核心技术架构:SVG 作为"通用语"的中间层

为什么不用 HTML/CSS?不用直接生成 DrawingML?不用 WMF/EMF?

Hugo 在 technical-design.md 中给出了极其硬核的排除法论证:

直接生成 DrawingML:PowerPoint 的底层 XML 极其冗长,一个圆角矩形就要几十行嵌套 XML。AI 的训练数据远少于 SVG,生成质量不稳定,调试几乎无法肉眼完成。

HTML/CSS:HTML 描述的是"文档流"( headings → paragraphs → lists),而 PowerPoint 是"画布"——每个元素都是绝对定位的独立对象,没有流,没有上下文。这是结构性错配,不是简单的排版计算问题。即使你有 Chromium 的数百万行布局引擎代码,HTML 里的 <table> 也没法自然映射成 PPT 里的几个独立形状。

WMF/EMF:微软自家的矢量格式,与 DrawingML 有直接血缘关系。但 AI 对它几乎没有训练数据,这条路死在起点。连微软自家的格式都输给了 SVG。

SVG 嵌入为图片:最简单,但完全丧失可编辑性,和截图没区别。

SVG 胜出的根本原因

SVG 和 DrawingML 拥有相同的世界观:都是绝对坐标的二维矢量图形格式,概念一一映射:

SVG DrawingML
<path d="..."> <a:custGeom>
<rect rx="..."> <a:prstGeom prst="roundRect">
transform="translate/scale/rotate" <a:xfrm>
linearGradient / radialGradient <a:gradFill>

转换不是格式错配,而是两种方言之间的精确翻译

更重要的是,SVG 同时满足了流程中所有角色的需求:AI 能可靠生成它,人能在浏览器里直接预览调试,脚本能精确转换它——在写任何 DrawingML 之前,设计稿就已经完全透明可见。

多角色 AI 协作工作流

PPT Master 不是一个简单的"输入→输出"脚本,而是一个嵌入在 AI IDE 中的复杂工作流(Skill)。整个流水线分为三个阶段:

用户输入 (PDF/DOCX/URL/Markdown)
    ↓
[源内容转换] → pdf_to_md.py / doc_to_md.py / web_to_md.py
    ↓
[创建项目] → project_manager.py init <项目名> --format <格式>
    ↓
[模板选项] → 使用已有模板 / 自由设计 / 创建新模板
    ↓
[Strategist 策略师] → 八项确认 & 设计规范 → design_spec.md
    ↓
[Image_Generator 图片生成师] (可选) → AI 生成配图
    ↓
[Executor 执行师] → 视觉构建:逐页生成 SVG → svg_output/
                → 逻辑构建:生成完整讲稿 → notes/total.md
    ↓
[质量检查] → svg_quality_checker.py (强制通过,0 错误)
    ↓
[图表校准] → verify-charts 工作流 (含数据图表时)
    ↓
[后处理] → total_md_split.py → finalize_svg.py → svg_to_pptx.py
    ↓
输出:
    exports/presentation_<timestamp>.pptx      ← 原生 DrawingML 形状(推荐编辑&交付)
    backup/<timestamp>/presentation_svg.pptx   ← SVG 快照备份

三种执行师(Executor)的差异化设计

项目内置了三种视觉生成角色,对应不同专业度需求:

  • Executor_General:通用场景,灵活布局,适合培训、技术分享

  • Executor_Consultant:一般咨询风格,强调数据可视化

  • Executor_Consultant_Top:顶级咨询(MBB 级别),掌握五大核心技巧——MECE 原则、金字塔结构、数据驱动叙事、信息可视化矩阵、专业留白

这不是简单的"换皮肤",而是从内容结构到视觉语法的深层差异。例如顶级咨询风会强制要求 KPI 卡片、趋势图表、结构化矩阵,而禅意风则会采用螺旋深入的信息架构和水墨留白布局 。

硬核功能:原生动画、语音旁白、多格式输出

原生动画与转场(不是嵌入视频!)

最新版本支持:

  • 逐元素进入动画:顶层 SVG <g id> 组自动转换为 PPT 元素动画,支持点击触发 / 自动级联

  • 页面转场:原生 with-previous / after-previous 计时,兼容 Office 2010 扩展

  • --animation-trigger auto 可生成无需点击的自动播放序列

这是真正的 OOXML 动画,不是嵌入的 MP4 视频。在 PowerPoint 和 Keynote 中原生播放,无需额外工具。

语音旁白与视频导出

更夸张的是,PPT Master 还能:

  1. 基于讲稿生成逐页语音旁白(支持 90+ 种语言,通过 edge-tts

  2. 将音频嵌入回 PPTX

  3. 让 PowerPoint 直接导出为带同步旁白和转场的 MP4 视频

这意味着你可以从一份 PDF 出发,端到端生成一个带配音的讲解视频,全程无需第三方剪辑工具。

10+ 种画布格式

同一套流水线,支持:

  • PPT 16:9 (1280×720) / 4:3 (1024×768)

  • 小红书 (1242×1660)

  • 朋友圈 / Instagram (1080×1080)

  • Story / 短视频 (1080×1920)

  • A4 打印、Banner、公众号...

开源、本地、透明成本

PPT Master 的商业模式设计非常"反 SaaS" :

维度 Gamma / Beautiful.ai PPT Master
成本 $8-45/月订阅,不管你用多少 免费开源,只付 AI 模型使用费
数据隐私 文件上传至第三方服务器 100% 本地,除 AI 通信外全在本地运行
平台锁定 依赖特定平台 无锁定,支持 Claude Code、Cursor、VS Code Copilot、Codebuddy 等任意 IDE
模型锁定 只能用平台提供的模型 无锁定,Claude、GPT、Gemini、Kimi、MiniMax 均可

成本有多低?用 VS Code Copilot($10/月,300 次标准请求)驱动,一份 PPT 约 $0.08。即使是 Claude Opus 级别,也只需约 $0.24。

示例项目:从麦肯锡到易经

项目的 examples/ 目录包含 22 个项目、309 页,风格跨度令人震撼 :

咨询风格(8 个项目,142 页):

  • ppt169_顶级咨询风_心理治疗中的依恋 — 32 页,螺旋上升结构,从 Bowlby 到 Fonagy 的理论演进

  • ppt169_顶级咨询风_甘孜州经济财政分析 — 17 页政府财政分析,藏红 + 政府蓝 + 金色配色

  • ppt169_麦肯锡风_kimsoong_customer_loyalty — 8 页经典麦肯锡风格,MECE 原则、数据驱动

创意风格(4 个项目,55 页):

  • ppt169_易理风_地山谦卦深度研究 — 20 页易经本体美学,采用"阴阳爻变"设计语言,阳爻阴爻作为核心视觉符号

  • ppt169_禅意风_金刚经第一品研究 — 15 页禅意学术风,水墨留白,层层递进

  • ppt169_像素风_git_introduction — 10 页像素复古游戏风,霓虹配色,用"存档点"比喻版本控制

每个示例都包含完整的设计规范文档(design_spec.md),详细到配色 HEX、字号层级、布局坐标、甚至 SVG 结构模板——这是可复用的设计资产,不是简单的展示。

技术约束与工程纪律

项目对 SVG 的约束极其严格(见 AGENTS.md):

禁止使用的 SVG 特性

  • clipPathmask<style>class、外部 CSS

  • <foreignObject>(这是最常见的违规)、textPath@font-face

  • <animate*><script>marker-end<iframe>

  • <symbol>+<use><defs> 内的 id 引用是允许的)

替代方案

禁用特性 替代方案
rgba() fill-opacity / stroke-opacity
<g opacity> 逐个设置子元素透明度
<image opacity> 叠加遮罩层
marker-end 箭头 <polygon> 三角形

这种严格性不是刁难,而是为了保证 SVG→DrawingML 转换的可靠性。每一个被禁用的特性,都是在 PowerPoint 中无法精确表达或会导致转换失真的"陷阱"。

设计哲学:AI 是设计师,不是完工师

Hugo 在技术文档中写了一段非常清醒的提醒:

"生成的 PPTX 是一份设计稿,而非成品。把它理解成建筑师的效果图:AI 负责视觉设计、排版布局和内容结构,交付给你一个高质量的起点。要想获得真正精良的成品,需要你自己在 PowerPoint 里做精装修。这个工具的目标是消除 90% 的从零开始的工作量,而不是替代人在最后一公里的判断。"

"工具的上限是你的上限。 PPT Master 放大的是你已有的能力——你有设计感和内容判断力,它帮你快速落地;你不知道一个好的演示文稿应该长什么样,它也没法替你知道。"

这种诚实比那些宣称"一键生成完美 PPT"的营销话术更有价值。

如何开始

# 1. 克隆仓库
git clone https://github.com/hugohe3/ppt-master.git
cd ppt-master

# 2. 安装依赖(只需 Python 3.10+)
pip install -r requirements.txt

# 3. 打开你的 AI IDE(Claude Code / Cursor / VS Code Copilot)
# 4. 在聊天面板说:"请把 projects/my-report/sources/report.pdf 做成 PPT"

AI 会先确认设计规范(模板、格式、页数),然后自动完成内容分析、视觉设计、SVG 生成和 PPTX 导出。

结语

PPT Master 的硬核之处不在于它用了多厉害的模型,而在于它解决了一个被所有人回避的工程难题:如何让 AI 的输出真正融入现有的专业工作流,而不是创造一个需要用户改变习惯的新孤岛。

从 SVG 中间层的选型论证,到 DrawingML 的精确转换,再到多角色协作的工作流设计,再到 CRAP 设计原则的工程化落地——这是一个懂演示、懂设计、懂工程的人做的工具。Hugo He 作为每周处理数百页幻灯片的金融专业人士,他构建的不是一个玩具,而是一个生产工具

如果你也受够了"图片式 PPTX"的欺骗,不妨给 hugohe3/ppt-master 一个 Star。这或许是 2026 年最值得关注的开源生产力工具之一。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐