[CS153] ElevenLabs

mit6.824

421人浏览 · 2026-05-04 12:48:53

mit6.824 · 2026-05-04 12:48:53 发布

讲师：Maty Staniszewski，ElevenLabs 创始人

让模型自己学习定义这些参数
开源让世界各地的开发者能够在此基础上构建、定制、发现垂直领域的用例
从为客户创造的价值出发，反向推算你的定价
人与人之间的合作才是推动前沿的力量

1.起源

1.1 灵感来源——波兰配音的行业问题

马蒂来自波兰，他指出了一个波兰影视行业的独特现象：

所有外语电影的配音，无论角色性别，都由单一配音员朗读所有角色
通常只有约5种配音员，声音单调、沉闷、年长男性为主
配音员被要求"平铺直叙"地朗读，让观众自行想象情感
这种体验被波兰人普遍认为是糟糕的
当波兰人学会英语后，才能欣赏到原声，这是一个"极其正面的体验"

愿景：创建一个未来，让人们可以用任何语言访问所有类型的内容，保持原始的丰富情感和自然度。

1.2 从 Google 到独立创业

马蒂和他的联合创始人 Piotr 都曾在 Google 工作，后来又在 Penter（一家 AR 公司）任职。

创业初期，他们刻意反 Google 之道而行：

极度厌恶会议
厌恶基于邮件的沟通方式
直接在 Discord 上运营公司
目标是让协作变得快速和简单

“我们从零开始建立公司，想弄清楚哪些是不该做的事情。”

1.3 Discord 上的产品起源

马蒂和 Anj 初次相识的背景：

Anj 当时负责 Discord 平台业务
有朋友向他推荐了一个 Discord 上的文本转语音机器人
Anj 最初没有重视，一个月后再次被推荐才认真关注
24小时内他就通过共同朋友 Na Friedman 介绍认识了马蒂
随后 Anj 以天使投资人身份加入 ElevenLabs

2：产品与市场契合的探索

2.1 早期调研方法——客户驱动的产品开发

马蒂在创业初期做了大量客户访谈：

配音问题的研究：

给影视工作室和创作者发邮件询问：“如果配音可以自动化，用你自己的声音把你的电影带到所有国际市场，你有兴趣吗？”
给潜在客户提供早期样本测试

意外的发现：

潜在客户的回复普遍是：“是的，我感兴趣。但如果你们能做那个，你们能否帮我做一个更简单的语音纠正工具？”
具体需求包括：
- 录制时某些部分没录好，需要修复
- 可以替换原语言中的台词配音吗？这样我可以不用出现在镜头前也能完成配音

fx：研究端和用户问题端同时深入后，发现了其他可解决的问题，不必一次性解决配音的全部三个组件。

2.2 2022年的战略聚焦——文本转语音

2022年（加密货币和元宇宙的年代），ElevenLabs 决定：

第一个最大潜力的产品方向：基础的文本转语音
目标：仅在英语环境下，让文本听起来自然、有情感
明确不做：不创新转录部分，不做 LLM 部分，只专注最后一公里的生成

使命：提高文本转语音的state of the art水平。

3：技术架构演进

3.1 级联式架构（Cascaded Architecture）

配音问题需要解决的三个模型组件：

组件	功能	技术
语音转文本（`STT`）	转录内容，识别说话者，去除背景噪音	`语音识别模型`
大语言模型（`LLM`）	翻译成另一种语言，可能需要额外校正	`翻译模型`
文本转语音（`TTS`）	重新生成音频，保留原始表演的声音、语调、情感	`生成模型`

问题：2022年，整个pipeline都没有产生正确结果——当时翻译质量仍然较差，整个系统表现不佳。

3.2 技术突破一：Voice Characteristics 的抽象化

传统方法的问题：

当时的主流方法是通过硬编码参数来定义声音：性别、口音、年龄
然后尝试预测这些参数

ElevenLabs 的创新：

将这些参数保持抽象化
让模型自己学习定义这些参数
效果：可以更好地重现声音特征

3.3 技术突破二：上下文感知的生成

问题：之前的模型无法做到：

连贯的语调：给定一段文字片段（如"今天是快乐的一天"），模型能理解其情感并以快乐的方式传达
对话场景理解：如果是书中的对话序列，模型需要知道这是对话，需要按对话的方式朗读
整体交付质量：像真人播音员那样理解上下文并调整语调

解决：借鉴 GPT 时代的 next token prediction 思想，引入上下文建模，让模型在生成时可以考虑到前文。

3.4 开源模型 Tortoise 的启发

在技术调研阶段，马蒂发现了 James Baker（后来加入 OpenAI，参与 ChatGPT Advanced Voice Mode）创建的 Tortoise TTS：

在开源领域，Tortoise 是当时最好的文本转语音模型
James 在 Google 工作之余，用夜晚和周末时间独立开发
优点：短片段上可以产生接近人类的声音——正确的语调、国际口音、情感都能体现
缺点：
- 生成时间极长
- 长于短句时非常不稳定

这个例子说明开源社区的创新价值，也说明 ElevenLabs 的改进空间。

3.5 早期算力成本

主要使用 GPU 计算资源
通过 NVidia Inception Program 等获得了一些免费计算额度
第一个 ElevenLabs checkpoint 受 Tortoise 启发时，花费在"万级美元"范围内
团队在预算上极度节俭：甚至为了是否申请专利和律师费 $6000 讨价还价，最终决定不申请专利
当时模型的参数量在"数亿参数"级别（相对较小）

4：2019-2026 发展路线图

年份	发展阶段	关键里程碑
2022	首个突破	`让文本转语音能够理解上下文、保留语调、产生自然情感`
2023	扩展阶段	跨语言文本转语音；创建高质量语音重建能力；上线语音市场（Voice Marketplace）；拓展创作者工具（有声书、剧本转音频）
2024	AI 本地化实现	联合 Le Friedman 完成多位世界领导人的对话配音：Javier Milei（阿根廷）、President Zelensky（乌克兰）、Narendra Modi（印度）；`实现跨语言保留标志性声音特征`
2025	实时语音智能体	模型可以在实时基础上运行；实现级联式语音智能体（边听边预测停止、边生成回应）
2026	持续演进	级联 vs 融合的进一步优化；继续降低延迟

年度对比：2024年首次实现了真正优秀的 AI 配音体验（在静态内容中）；2025年则实现了实时交互能力。

5：级联式 vs 融合式架构

5.1 两种架构路径

级联式（Cascaded）：

三个独立模型串联工作：STT → LLM → TTS
各模型可以独立训练
需要在组合后进行微调
优势：可靠性高、可控性强、可追踪每一步

融合式（Fused/End-to-End）：

端到端训练，说话后直接生成语音回应
不经过文本中间层
优势：延迟更低
劣势：可靠性牺牲，工具调用、guardrails 难以实现

5.2 ElevenLabs 的选择逻辑

商业场景（企业级部署）：

采用级联式架构是未来几年的正确选择
原因：
1. 可靠性优先：不能出错，不能产生幻觉
2. 需要调用工具：客服场景需要查询数据库、调用身份验证、执行支付等，每一步都要可靠
3. Guardrails 可控：可以设置明确的控制和安全防护

低延迟场景（某些用例）：

融合式架构在延迟上获胜，可以做到约 300ms 响应
但牺牲了可靠性
适用场景：companion（陪伴类）用例

混合策略：同一个客户内部也会根据不同交互部分混合使用两种架构。

“如果用户在查询产品信息、航班时刻表等不需要执行操作的部分，可能用融合式；但一旦需要进入账户执行操作，立刻切换到级联式。”

5.3 训练侧重点的差异

级联式训练挑战：

独立训练各模型后，需要解决组合时的交互问题
为了实现情感表达（如从转录识别情感，然后作为参数传递），需要在训练阶段就嵌入这个能力，而不是在pipeline末端再添加

融合式训练挑战：

需要强大的开源 LLM 来提供智能层
主要难点：
1. Token 融合：如何将文本空间的 tokens 和音频 tokens 融合（most people cannot figure that step out）
2. 依赖开源模型：融合式依赖开源模型，而开源模型在智能水平上仍落后于闭源模型

6：语音智能体的核心技术

6.1 情感识别与表达

挑战：要让智能体理解用户的情感（愤怒、悲伤），不能仅依赖文本转录。

ElevenLabs 的最新突破：

识别转录中的情感状态
将情感作为上下文传递给 LLM
生成相应情感的回应
实现了表达性控制（Expressivity Control）

实现难度：

缺乏足够的标注数据来告诉模型：某段音频是"开心的"还是"悲伤的"
花了一年时间进行标注工作，创建训练数据来控制情感模型

6.2 可靠的重要性

语音智能体需要完成的典型任务（以航空公司改签为例）：

身份验证
拉取客户信息
查询可用航班
处理支付
每一个步骤都需要调用外部工具、访问数据库

级联架构的优势：可以追踪每一步发生了什么，便于调试和保证正确性。

6.3 延迟优化

融合式可以做到 ~300ms 响应
级联式需要更长时间，但保证了可靠性
未来趋势：根据交互类型动态选择架构

7：产品与商业策略

7.1 PLG（产品驱动增长）策略

ElevenLabs 的增长模式：

起点：非常 PLG 驱动，聚焦创作者和开发者社区
方法：尽可能接近用户，通过 Discord 保持与创作者和开发者的开放连接
目标：
- 了解质量是否足够好
- 了解能否满足用户需求
- 发现未曾预料到的用例，快速迭代
- 让社区参与产品开发，甚至可以用模型使用数据来反哺模型优化

产品矩阵：

语音市场（Voice Marketplace）：允许人们贡献自己的声音，供他人使用并可能获利
API 给开发者
创意工具给创作者（有声书、剧本等）
企业级解决方案

“技术被社区采用后，会展示出世界其他地方可能 6、12、18 个月后才出现的用例。保持最接近用户是非常有价值的。”

7.2 团队架构——小团队、高权责

规模：约 450 人（年营收超 4.3 亿美元）

原则：

每个团队保持在 10 人以下
赋予高度所有权，团队可以独立做决策
允许犯错
速度 > 流程：快速理解客户、理解问题，比走审批流程更重要
这种模式让他们能够同时做很多事情（多种模型、多个产品方向）
分布：
最大基地：伦敦、纽约
第三名：旧金山和华沙在竞争
团队主要在美国和欧洲

7.3 可预测的收入引擎

收入结构：

企业级销售（>50% 收入）：服务全球最大的公司（如 Deutsche Telecom、Revolut、Khan Academy 等）
PLG（自服务）：持续增长，占约 50%（实际略低）

可预测性的来源：

企业级合作的本质是可以预测的——已知客户、已知价值交付
核心瓶颈是能否找到足够多有热情、有 IQ 和 EQ、追求卓越但保持谦逊的人才

增长数据：

2025 年结束时 ARR 达到 3.3 亿美元
本季度是历史最高季度，又增加了超过 1 亿美元的 ARR
现在超过 4.3 亿美元（36 个月内）

7.4 基于价值的定价策略

“从为客户创造的价值出发，反向推算你的定价，而不是从你的运营成本出发。”

方法：

先计算你能为客户创造多少价值
你希望捕获创造价值的约 1/10 作为你的收入
定价和包装设计是为此服务的工具
最难的部分不是如何计算价值，而是如何定义正确的指标来衡量价值

禁忌：永远不要从成本出发来决定定价

8：语音安全与伦理

作为自研模型的公司，ElevenLabs 从一开始就内置了安全机制：

溯源能力：可以追溯生成内容来自谁，在需要时采取行动
内容审核：在生成前阻止滥用行为，或标记内容供内部审查
水印技术：公开可用的系统，提交音频样本可以判断是否由 AI 生成
许可协议：与 Michael Caine、Matthew McConaughey 等名人合作时，确保声音使用经过正确授权

8.2 语音认证的局限性

ElevenLabs 的立场：

很多银行和其他系统依赖语音认证
这不是未来的正确做法，应该停止使用语音作为认证手段
原因：随着技术进步，复制声音变得相对容易

8.3 语音技术的正向应用

Voice Restoration（声音复原）项目：

为失去声音的人（如 ALS 患者、喉癌患者）合成他们的原始声音
目前已帮助近 10,000 人恢复沟通能力
让他们可以用自己曾经的声音自然交流

反欺诈应用：

开发了 AI agent 来与诈骗者对话
目的：浪费诈骗者的时间(这段看笑了sos)
这是用语音技术对抗负面应用的方式之一

9：竞争与合作哲学

9.1 “`合作优先于竞争`”

Anj 在课程中特别强调了马蒂的领导力特质：

当 Brendan（Sesame CEO，前 Oculus 负责人）询问如何构建实时语音伴侣时，马蒂花时间详细分析了他的需求
在 ElevenLabs 还在融资、有很多竞争者的情况下，马蒂仍然愿意慷慨分享观点
结果：Brendan 也成为了 ElevenLabs 的天使投资人，ElevenLabs 也天使投资了 Sesame
两家团队之间保持了罕见的协作关系

观点：

音频 AI 领域看似有很多竞争者，但实际上类别和标签很大程度上是 VC 和商业生态为了幻灯片人为创造的
真正驱动进步的是人，人与人之间的合作才是推动前沿的力量
竞争最终不重要，真正重要的是你们要解决的使命
很多人在未来会与你有不同的交集，保持合作关系、交换想法至关重要

“特别是在一个新的领域，看起来是竞争的项目实际上只是 VC 为了做出好看的幻灯片放的 logo。”

9.2 与 Sesame 的合作

Sesame 开源了 CSM（Conversational Speech Model）模型
这是与 ElevenLabs 技术路线不同的模型
去年 CSM 被一些学生的项目使用
这种开源精神对生态系统的健康发展至关重要

10：国际合作与社会影响

10.1 乌克兰政府项目

背景：

战争爆发后，政府需要向全国各地人民提供服务
许多人失去了常规的获取渠道（无法去当地行政办公室）

解决方案：

乌克兰政府创建了一个中央公民应用 Diia
公民可以通过手机设备访问大量服务：出行信息、福利、食物支持、教育课程等

ElevenLabs 的贡献：

为该应用添加了语音功能
目的：让那些没有技术能力或无法使用互联网的人也能通过电话呼叫获得信息
团队成员亲自前往基辅了解问题，与不同部委合作

启示：

各国政府可能借鉴这种方式提供公共服务
想象未来每个人都可以通过应用访问护照、驾照、教育课程等

10.2 地缘政治立场

“作为一家公司，我们选择站在西方阵营，支持相关工作，当然也遵循法律指导。”

11：中国市场与技术蒸馏

11.1 对中国市场的态度

技术层面：

存在蒸馏攻击（distillation attacks）
试图阻止所有类型的蒸馏攻击
特别针对来自某些地区的 IP 会加强保护
承认中国有很好的模型，在音频和语音领域，针对特定语言场景可能比 ElevenLabs 更好
ElevenLabs 的策略：用更好的服务来竞争

生态层面：

承认中国在视频模型等领域的创新
一年前中国有很多开源视频模型，现在不再那么开放了
Sora 等模型不再开源或开放权重
这对整个生态的影响值得关注

11.2 开源生态的重要性

观点：

应该保持开源社区的健康发展
应该有西方开源模型至少和来自中国的模型一样强大
应该有水印系统来追踪内容来源
如果某些模型不符合规则，可能需要限制其在平台上的分发

价值：开源让世界各地的开发者能够在此基础上构建、定制、发现垂直领域的用例

12：影视工作室的采用

12.1 为什么工作室犹豫

原因：对 AI 生成内容的抵制（AI Slop）

ElevenLabs 的定位：

倡导 “中间到中间”（Middle to Middle） 而非"端到端"（End to End）
工作室有故事想讲述 → 用工具创建旁白 → 迭代优化 → 最终获得优质输出
这是一个有初始输入、有迭代精神的流程

对比：

“端到端”：直接输入提示，得到语音或视频，没有迭代、没有故事输入
这就是 AI Slop 的本质

12.2 质量门槛的突破

六个月的突破：

终于实现了像导演控制演员那样的精细控制能力
工作室可以指示：“用更戏剧化的方式重新演绎，同时稍微放慢速度”

情况：

有了这个突破后，更多工作室开始采用这项技术
但仍需解决：
1. 经济模型：如何尊重 IP、创作者的经济权益（AI 配音的费用如何与原创作人分成）
2. 质量要求：高端内容对质量的要求仍然很高

场景：

从 scratch work（草稿版配音）开始：录音后用来听的测试版本
之后修复有问题的地方
最终才是正式的高质量版本
之后才会是 AI 本地化、交互式体验等高级应用

13：端侧模型与未来平台

13.1 端侧模型的进展

ElevenLabs 终于实现了将模型部署到设备上
通过约束到特定语言，可以在任何设备上运行

当前限制：

端侧版本质量仍落后于云端版本
端侧可以做文本转语音，但无法做到：
- 更广泛的转录交互能力
- 跨语言情感转移
- 更高级的可靠性功能

策略：

先解决质量问题，只在质量足够好时才考虑端侧部署
而不是为了部署而部署，让用户得到低质量体验

预期：两种版本之间的质量差距会长期存在。

13.2 平台愿景——五年展望

三大支柱：

研究（Foundational Research）
- 继续引领音频领域的底层研究
- 目标：真正通过"语音图灵测试"
- 可能扩展到视觉 Avatar 领域
平台（Platform）
- 成为企业、创作者、开发者的一站式解决方案
- 愿景：像几家云计算巨头提供计算服务一样，未来会有 3-5 家平台级公司帮助企业建立与受众的对话系统
- 应用场景：
  - 客服与销售（Conversational Support & Sales）
  - 营销与客户互动（Marketing & Customer Engagement）
  - 内部培训与人才发展（Internal Hiring & Training）
- 工具包括：知识库、渠道集成（电话、聊天、WhatsApp、邮件）、工具调用能力（连接数据库、Salesforce、ServiceNow）、评估监控测试框架
应用（Application）
- 产品与平台的边界未来会模糊
- AI 将使应用构建更容易
- 提供所有模块让未来的构建者可以无缝开发

“如果模型变得更商品化，真正理解客户在解决什么问题、给他们工具来解决问题才是最大价值所在。”

14：经验与教训

问题	解决方向
情感识别与表达	通过大量标注数据训练情感检测模型；将情感作为上下文传递给 LLM
可靠性 vs 延迟	根据场景选择级联式或融合式；企业场景可靠性优先
个性化体验	收集更多数据，理解不同用户偏好（语速、交流方式等）

接近用户是根本：技术被社区采纳后会展示出未来的用例
极度问题导向：用户认为的问题和你认为的问题往往有差异
从价值出发定价：永远从客户获得的价值出发，而非从成本出发
小团队高权责：10 人以下的团队，快速决策，允许犯错
合作大于竞争：新的领域里人与人之间的合作是真正推动前沿的力量
自力更生与开源精神：早期靠自有资金和开源模型起步；成功后回馈开源生态

规模化经验

Anj 总结的 Scaling 定律：你可以走得更远，Together（一起）
在新领域里，看起来像竞争者的项目往往只是外人为了理解而做的标签
真正驱动进步的是人，合作是关键

附录

指标	数值
当前 ARR	超过 4.3 亿美元
36 个月 ARR	超过 4 亿美元
上个季度增长	新增超过 1 亿美元 ARR
团队规模	约 450 人
声音复原项目受益人数	近 1w 人
主要基地	伦敦、纽约、旧金山

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

76、【Agent】【OpenCode】用户对话提示词（addtionalProperties 属性）

AtomGit开源社区

DeerFlow：字节开源的深度研究框架，让 AI 帮你做专业调研

DeerFlow是字节跳动开源的自动化调研框架，通过大语言模型整合网页搜索、数据爬取和代码执行等功能，实现从问题拆解到报告生成的全流程自动化。该系统采用多智能体架构，包含协调器、规划器、调研团队和报告生成器四大核心组件，支持本地一键部署和隐私保护。具备多搜索引擎适配、大模型兼容、人机协同编辑等功能，并能将报告转换为播客、PPT等多种形式。作为社区驱动的开源工具，DeerFlow显著提升调研效率，适