语音工具使用指南

雾削木

454人浏览 · 2026-04-12 17:37:08

雾削木 · 2026-04-12 17:37:08 发布

大家好我是雾削木！最近折腾了一波语音相关的工具，测试了几个目前超好用的开源语音合成（TTS）和语音识别（ASR）工具，不管是做视频配音、自动转字幕，还是离线环境下用都能完美适配！今天就把这些工具的安装、使用指令，还有我自己的测试结果整理出来，保姆级教程，复制指令就能用！

📋 本次测试工具总览

这三个工具我都已经全部安装测试完毕，都能正常使用，大家可以放心冲！

工具	类型	特点	状态
edge-tts	TTS (在线)	微软 Edge 语音，高质量，需联网	✅ 已验证可用
piper-tts	TTS (离线)	ONNX 运行时，完全离线可用	✅ 已验证可用
openai-whisper	ASR	高精度语音识别，支持多语言	✅ 已验证可用

🎙️ 语音合成（TTS）：一键生成自然语音

2.1 edge-tts：在线语音天花板，音质绝了！

这个是微软 Edge 浏览器内置的语音合成工具，开源出来的版本，音质真的拉满，自然度超高，很多做视频配音的朋友都在用这个！

✅ 优点：音质优秀，语音自然，可选的音色超多！ ⚠️ 缺点：需要联网才能用哦～

🔧 安装指令

pip install edge-tts

🎵 查看可用的中文语音

想看看有哪些中文音色可以选？运行这个指令就能看到：

edge-tts --list-voices | grep zh-CN

🌟 中文音色推荐

我整理了几个超好用的中文音色，大家可以直接选：

语音名称	性别	特点
zh-CN-XiaoxiaoNeural	女	温暖、亲切，最常用的女声
zh-CN-YunxiNeural	男	阳光、年轻，很有活力的男声
zh-CN-YunyangNeural	男	专业、沉稳，适合正式内容
zh-CN-XiaoyiNeural	女	活泼、可爱，元气少女音
zh-CN-YunjianNeural	男	标准播音腔，超适合旁白
zh-CN-XiaochenNeural	女	温柔，很治愈的声音
zh-CN-XiaohanNeural	女	甜美，甜甜的少女音
zh-CN-XiaomengNeural	女	软萌，超可爱的萝莉音

📝 生成语音的指令

选好音色之后，直接运行这个指令就能生成语音文件啦！

edge-tts --text "你好，这是一段测试文本。" --voice zh-CN-XiaoxiaoNeural --write-media output.mp3

把里面的文本、音色名称、输出文件名改成你自己的就可以了！

我的测试结果

我已经测试了几个常用的音色，都没问题：

edge\_xiaoxiao\.mp3 - 温暖女声，超自然
edge\_yunxi\.mp3 - 阳光男声，很有活力
edge\_yunyang\.mp3 - 专业男声，适合正式内容

2.2 piper-tts：完全离线！没网也能用！

如果你的场景不能联网，或者想要本地用语音合成，那这个 piper-tts 就太合适了！完全离线，用 ONNX 运行时，速度超快，不用依赖网络！

✅ 优点：完全离线，速度快，本地就能跑！ ⚠️ 缺点：音质比 edge-tts 略低一点，中文可选的音色比较少

🔧 安装指令

pip install piper-tts

📦 下载中文语音模型

首先要下载中文的模型文件，我用的是这个：zh\_CN\-huayan\-medium\.onnx，大小 61MB，下载之后会存在 \~/\.local/share/piper/ 这个目录里。

📝 生成离线语音

运行这个指令就能生成离线的语音了，完全不用联网！

echo "你好，这是离线语音合成测试。" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file output.wav

我的测试结果

piper\_huayan\.wav - 离线中文语音，速度超快，没网也能跑！

📝 语音识别（ASR）：自动转字幕神器！

OpenAI Whisper：转字幕就用它！

OpenAI 开源的语音识别模型，支持几十种语言，中文识别准确率超高！不管是把录音转文字，还是给视频自动生成字幕，这个工具都能完美搞定，很多做视频的 UP 主都在用这个！

✅ 优点：中文识别准确率高，支持多种输出格式，还能 GPU 加速！ ⚠️ 注意：大模型需要的空间比较大，根据自己的需求选就好～

🔧 安装指令

pip install openai-whisper

⚙️ 依赖说明

需要 PyTorch 2.11.0
如果有 NVIDIA 显卡的话，可以装 CUDA 来加速，速度会快很多！

📦 模型怎么选？

不同的模型大小不一样，速度和精度也有区别，大家根据自己的需求选：

模型	大小	速度	精度	适用场景
tiny	39MB	最快	较低	实时识别、快速转写
base	74MB	快	中等	日常快速转写
small	244MB	中等	较高	大部分日常场景
medium	769MB	慢	高	高精度转写
large	1.5GB+	最慢	最高	专业高精度需求

📝 识别语音的指令

基本的用法很简单，直接运行就能把语音转成文字：

# 基本用法，转成文字
whisper audio.mp3 --language Chinese --model base

如果你想要生成字幕文件，比如 srt 格式的，直接加个参数就行：

# 输出为srt字幕格式，直接就能给视频用！
whisper audio.mp3 --language Chinese --model base --output_format srt

还可以指定输出的目录，把结果都放一起：

# 指定输出目录
whisper audio.mp3 --language Chinese --model base --output_dir ./transcripts

我的测试结果

我把之前生成的所有语音都用 whisper 识别了一遍，全部都成功了！

中文识别准确率真的很高，几乎没有错误
支持的输出格式超多：txt, srt, vtt, json, tsv，想要啥格式都有

📁 测试文件汇总

我所有的测试文件都放在 \~/file/ 目录里，给大家做个参考：

~/file/
├── edge_xiaoxiao.mp3      # edge-tts 温暖女声
├── edge_yunxi.mp3         # edge-tts 阳光男声
├── edge_yunyang.mp3       # edge-tts 专业男声
├── piper_huayan.wav       # piper 离线语音
├── edge_xiaoxiao.txt      # whisper 识别结果
├── edge_yunxi.txt         # whisper 识别结果
├── edge_yunyang.txt       # whisper 识别结果
└── piper_huayan.txt       # whisper 识别结果

💡 场景推荐：不同情况选什么工具？

根据我的测试，给大家整理了不同场景下的工具推荐，直接照着选就好：

场景	推荐工具	理由
在线服务、视频配音	edge-tts	音质最佳，语音选择多，效果最好
离线应用、无网环境	piper-tts	无需网络，速度快，本地就能跑
高精度识别、专业转写	whisper (medium/large)	准确率最高，细节拉满
实时识别、快速转写	whisper (tiny/base)	速度快，够用就行

⚡ 命令速查：复制就能用！

给大家整理了最常用的指令，直接复制就能用，不用翻来翻去啦！

# ========== edge-tts 生成在线语音 ==========
edge-tts --text "你的文本内容" --voice zh-CN-XiaoxiaoNeural --write-media out.mp3

# ========== piper 生成离线语音 ==========
echo "你的文本内容" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file out.wav

# ========== whisper 语音识别 ==========
whisper 你的音频文件.mp3 --language Chinese --model base

🔧 环境配置说明

我是在 Python 虚拟环境里测试的，大家如果怕搞乱自己的环境，也可以用虚拟环境：

虚拟环境路径： \~/\.venv/tts 激活环境：

source ~/.venv/tts/bin/activate

我测试用的包版本，大家可以参考一下，避免版本不对出问题：

edge-tts (7.2.8)
piper-tts (1.4.2)
openai-whisper (20250625)
torch (2.11.0)

📌 最后说两句

所有的这些工具和指令我都已经在服务器上全部测试过了，都是亲测可用的，大家直接复制指令就能用，不用自己踩坑啦！

不管你是要做视频配音，还是要自动转字幕，或者是要做离线的语音功能，这三个工具基本都能覆盖你的需求了！

如果大家在使用过程中遇到什么问题，或者想要更多工具教程，欢迎在评论区留言！如果这篇教程对你有帮助的话，别忘了一键三连支持一下哦～

（注：文档部分内容可能由 AI 生成）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深入理解C/C++混合编程

在一起的，比如，RTP视频传输，live555多媒体播放等都是C++下的，他需要调用JRTPLIB库，再比如，我那邮件发送，我也用C++写的，定义了一个Email对象，包含了。，上面代码的意思是：如果是C++文件（*.cpp）后缀，则使用extern “C”，在C++项目中应用的非常广泛。在工作中，C、C++密不可分，做我们嵌入式方面的，当然更多的是C，但，有时候却少不了C++，而且是C、C++混

AtomGit开源社区

【C++篇】map和set的使用

代码语言：javascriptAI代码解释set的声明如上，T就是set底层关键字(key)的类型。set默认要求T是支持比较大小的，如果不支持或者想按自己的比较方式走，可以传仿函数给第二个模板参数。set底层存储数据的内存是从空间配置器申请的，如果需要可以自己实现内存池，传给第三个参数一般情况下是不需要传后两个参数的set底层是用红黑树实现的，增删查的效率为O(logN),迭代器遍历走的是中序遍