语音工具使用指南
大家好我是雾削木! 最近折腾了一波语音相关的工具,测试了几个目前超好用的开源语音合成(TTS)和语音识别(ASR)工具,不管是做视频配音、自动转字幕,还是离线环境下用都能完美适配! 今天就把这些工具的安装、使用指令,还有我自己的测试结果整理出来,保姆级教程,复制指令就能用!
📋 本次测试工具总览
这三个工具我都已经全部安装测试完毕,都能正常使用,大家可以放心冲!
| 工具 | 类型 | 特点 | 状态 |
|---|---|---|---|
| edge-tts | TTS (在线) | 微软 Edge 语音,高质量,需联网 | ✅ 已验证可用 |
| piper-tts | TTS (离线) | ONNX 运行时,完全离线可用 | ✅ 已验证可用 |
| openai-whisper | ASR | 高精度语音识别,支持多语言 | ✅ 已验证可用 |
🎙️ 语音合成(TTS):一键生成自然语音
2.1 edge-tts:在线语音天花板,音质绝了!
这个是微软 Edge 浏览器内置的语音合成工具,开源出来的版本,音质真的拉满,自然度超高,很多做视频配音的朋友都在用这个!
✅ 优点:音质优秀,语音自然,可选的音色超多! ⚠️ 缺点:需要联网才能用哦~
🔧 安装指令
pip install edge-tts
🎵 查看可用的中文语音
想看看有哪些中文音色可以选?运行这个指令就能看到:
edge-tts --list-voices | grep zh-CN
🌟 中文音色推荐
我整理了几个超好用的中文音色,大家可以直接选:
| 语音名称 | 性别 | 特点 |
|---|---|---|
| zh-CN-XiaoxiaoNeural | 女 | 温暖、亲切,最常用的女声 |
| zh-CN-YunxiNeural | 男 | 阳光、年轻,很有活力的男声 |
| zh-CN-YunyangNeural | 男 | 专业、沉稳,适合正式内容 |
| zh-CN-XiaoyiNeural | 女 | 活泼、可爱,元气少女音 |
| zh-CN-YunjianNeural | 男 | 标准播音腔,超适合旁白 |
| zh-CN-XiaochenNeural | 女 | 温柔,很治愈的声音 |
| zh-CN-XiaohanNeural | 女 | 甜美,甜甜的少女音 |
| zh-CN-XiaomengNeural | 女 | 软萌,超可爱的萝莉音 |
📝 生成语音的指令
选好音色之后,直接运行这个指令就能生成语音文件啦!
edge-tts --text "你好,这是一段测试文本。" --voice zh-CN-XiaoxiaoNeural --write-media output.mp3
把里面的文本、音色名称、输出文件名改成你自己的就可以了!
我的测试结果
我已经测试了几个常用的音色,都没问题:
-
edge\_xiaoxiao\.mp3- 温暖女声,超自然 -
edge\_yunxi\.mp3- 阳光男声,很有活力 -
edge\_yunyang\.mp3- 专业男声,适合正式内容
2.2 piper-tts:完全离线!没网也能用!
如果你的场景不能联网,或者想要本地用语音合成,那这个 piper-tts 就太合适了!完全离线,用 ONNX 运行时,速度超快,不用依赖网络!
✅ 优点:完全离线,速度快,本地就能跑! ⚠️ 缺点:音质比 edge-tts 略低一点,中文可选的音色比较少
🔧 安装指令
pip install piper-tts
📦 下载中文语音模型
首先要下载中文的模型文件,我用的是这个:zh\_CN\-huayan\-medium\.onnx,大小 61MB,下载之后会存在 \~/\.local/share/piper/ 这个目录里。
📝 生成离线语音
运行这个指令就能生成离线的语音了,完全不用联网!
echo "你好,这是离线语音合成测试。" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file output.wav
我的测试结果
-
piper\_huayan\.wav- 离线中文语音,速度超快,没网也能跑!
📝 语音识别(ASR):自动转字幕神器!
OpenAI Whisper:转字幕就用它!
OpenAI 开源的语音识别模型,支持几十种语言,中文识别准确率超高!不管是把录音转文字,还是给视频自动生成字幕,这个工具都能完美搞定,很多做视频的 UP 主都在用这个!
✅ 优点:中文识别准确率高,支持多种输出格式,还能 GPU 加速! ⚠️ 注意:大模型需要的空间比较大,根据自己的需求选就好~
🔧 安装指令
pip install openai-whisper
⚙️ 依赖说明
-
需要 PyTorch 2.11.0
-
如果有 NVIDIA 显卡的话,可以装 CUDA 来加速,速度会快很多!
📦 模型怎么选?
不同的模型大小不一样,速度和精度也有区别,大家根据自己的需求选:
| 模型 | 大小 | 速度 | 精度 | 适用场景 |
|---|---|---|---|---|
| tiny | 39MB | 最快 | 较低 | 实时识别、快速转写 |
| base | 74MB | 快 | 中等 | 日常快速转写 |
| small | 244MB | 中等 | 较高 | 大部分日常场景 |
| medium | 769MB | 慢 | 高 | 高精度转写 |
| large | 1.5GB+ | 最慢 | 最高 | 专业高精度需求 |
📝 识别语音的指令
基本的用法很简单,直接运行就能把语音转成文字:
# 基本用法,转成文字 whisper audio.mp3 --language Chinese --model base
如果你想要生成字幕文件,比如 srt 格式的,直接加个参数就行:
# 输出为srt字幕格式,直接就能给视频用! whisper audio.mp3 --language Chinese --model base --output_format srt
还可以指定输出的目录,把结果都放一起:
# 指定输出目录 whisper audio.mp3 --language Chinese --model base --output_dir ./transcripts
我的测试结果
我把之前生成的所有语音都用 whisper 识别了一遍,全部都成功了!
-
中文识别准确率真的很高,几乎没有错误
-
支持的输出格式超多:txt, srt, vtt, json, tsv,想要啥格式都有
📁 测试文件汇总
我所有的测试文件都放在 \~/file/ 目录里,给大家做个参考:
~/file/ ├── edge_xiaoxiao.mp3 # edge-tts 温暖女声 ├── edge_yunxi.mp3 # edge-tts 阳光男声 ├── edge_yunyang.mp3 # edge-tts 专业男声 ├── piper_huayan.wav # piper 离线语音 ├── edge_xiaoxiao.txt # whisper 识别结果 ├── edge_yunxi.txt # whisper 识别结果 ├── edge_yunyang.txt # whisper 识别结果 └── piper_huayan.txt # whisper 识别结果
💡 场景推荐:不同情况选什么工具?
根据我的测试,给大家整理了不同场景下的工具推荐,直接照着选就好:
| 场景 | 推荐工具 | 理由 |
|---|---|---|
| 在线服务、视频配音 | edge-tts | 音质最佳,语音选择多,效果最好 |
| 离线应用、无网环境 | piper-tts | 无需网络,速度快,本地就能跑 |
| 高精度识别、专业转写 | whisper (medium/large) | 准确率最高,细节拉满 |
| 实时识别、快速转写 | whisper (tiny/base) | 速度快,够用就行 |
⚡ 命令速查:复制就能用!
给大家整理了最常用的指令,直接复制就能用,不用翻来翻去啦!
# ========== edge-tts 生成在线语音 ========== edge-tts --text "你的文本内容" --voice zh-CN-XiaoxiaoNeural --write-media out.mp3 # ========== piper 生成离线语音 ========== echo "你的文本内容" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file out.wav # ========== whisper 语音识别 ========== whisper 你的音频文件.mp3 --language Chinese --model base
🔧 环境配置说明
我是在 Python 虚拟环境里测试的,大家如果怕搞乱自己的环境,也可以用虚拟环境:
虚拟环境路径: \~/\.venv/tts 激活环境:
source ~/.venv/tts/bin/activate
我测试用的包版本,大家可以参考一下,避免版本不对出问题:
-
edge-tts (7.2.8)
-
piper-tts (1.4.2)
-
openai-whisper (20250625)
-
torch (2.11.0)
📌 最后说两句
所有的这些工具和指令我都已经在服务器上全部测试过了,都是亲测可用的,大家直接复制指令就能用,不用自己踩坑啦!
不管你是要做视频配音,还是要自动转字幕,或者是要做离线的语音功能,这三个工具基本都能覆盖你的需求了!
如果大家在使用过程中遇到什么问题,或者想要更多工具教程,欢迎在评论区留言! 如果这篇教程对你有帮助的话,别忘了一键三连支持一下哦~
(注:文档部分内容可能由 AI 生成)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)