大家好我是雾削木! 最近折腾了一波语音相关的工具,测试了几个目前超好用的开源语音合成(TTS)和语音识别(ASR)工具,不管是做视频配音、自动转字幕,还是离线环境下用都能完美适配! 今天就把这些工具的安装、使用指令,还有我自己的测试结果整理出来,保姆级教程,复制指令就能用!


📋 本次测试工具总览

这三个工具我都已经全部安装测试完毕,都能正常使用,大家可以放心冲!

工具 类型 特点 状态
edge-tts TTS (在线) 微软 Edge 语音,高质量,需联网 ✅ 已验证可用
piper-tts TTS (离线) ONNX 运行时,完全离线可用 ✅ 已验证可用
openai-whisper ASR 高精度语音识别,支持多语言 ✅ 已验证可用

🎙️ 语音合成(TTS):一键生成自然语音

2.1 edge-tts:在线语音天花板,音质绝了!

这个是微软 Edge 浏览器内置的语音合成工具,开源出来的版本,音质真的拉满,自然度超高,很多做视频配音的朋友都在用这个!

优点:音质优秀,语音自然,可选的音色超多! ⚠️ 缺点:需要联网才能用哦~

🔧 安装指令
pip install edge-tts
🎵 查看可用的中文语音

想看看有哪些中文音色可以选?运行这个指令就能看到:

edge-tts --list-voices | grep zh-CN
🌟 中文音色推荐

我整理了几个超好用的中文音色,大家可以直接选:

语音名称 性别 特点
zh-CN-XiaoxiaoNeural 温暖、亲切,最常用的女声
zh-CN-YunxiNeural 阳光、年轻,很有活力的男声
zh-CN-YunyangNeural 专业、沉稳,适合正式内容
zh-CN-XiaoyiNeural 活泼、可爱,元气少女音
zh-CN-YunjianNeural 标准播音腔,超适合旁白
zh-CN-XiaochenNeural 温柔,很治愈的声音
zh-CN-XiaohanNeural 甜美,甜甜的少女音
zh-CN-XiaomengNeural 软萌,超可爱的萝莉音
📝 生成语音的指令

选好音色之后,直接运行这个指令就能生成语音文件啦!

edge-tts --text "你好,这是一段测试文本。" --voice zh-CN-XiaoxiaoNeural --write-media output.mp3

把里面的文本、音色名称、输出文件名改成你自己的就可以了!

我的测试结果

我已经测试了几个常用的音色,都没问题:

  • edge\_xiaoxiao\.mp3 - 温暖女声,超自然

  • edge\_yunxi\.mp3 - 阳光男声,很有活力

  • edge\_yunyang\.mp3 - 专业男声,适合正式内容


2.2 piper-tts:完全离线!没网也能用!

如果你的场景不能联网,或者想要本地用语音合成,那这个 piper-tts 就太合适了!完全离线,用 ONNX 运行时,速度超快,不用依赖网络!

优点:完全离线,速度快,本地就能跑! ⚠️ 缺点:音质比 edge-tts 略低一点,中文可选的音色比较少

🔧 安装指令
pip install piper-tts
📦 下载中文语音模型

首先要下载中文的模型文件,我用的是这个:zh\_CN\-huayan\-medium\.onnx,大小 61MB,下载之后会存在 \~/\.local/share/piper/ 这个目录里。

📝 生成离线语音

运行这个指令就能生成离线的语音了,完全不用联网!

echo "你好,这是离线语音合成测试。" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file output.wav
我的测试结果
  • piper\_huayan\.wav - 离线中文语音,速度超快,没网也能跑!


📝 语音识别(ASR):自动转字幕神器!

OpenAI Whisper:转字幕就用它!

OpenAI 开源的语音识别模型,支持几十种语言,中文识别准确率超高!不管是把录音转文字,还是给视频自动生成字幕,这个工具都能完美搞定,很多做视频的 UP 主都在用这个!

优点:中文识别准确率高,支持多种输出格式,还能 GPU 加速! ⚠️ 注意:大模型需要的空间比较大,根据自己的需求选就好~

🔧 安装指令
pip install openai-whisper
⚙️ 依赖说明
  • 需要 PyTorch 2.11.0

  • 如果有 NVIDIA 显卡的话,可以装 CUDA 来加速,速度会快很多!

📦 模型怎么选?

不同的模型大小不一样,速度和精度也有区别,大家根据自己的需求选:

模型 大小 速度 精度 适用场景
tiny 39MB 最快 较低 实时识别、快速转写
base 74MB 中等 日常快速转写
small 244MB 中等 较高 大部分日常场景
medium 769MB 高精度转写
large 1.5GB+ 最慢 最高 专业高精度需求
📝 识别语音的指令

基本的用法很简单,直接运行就能把语音转成文字:

# 基本用法,转成文字
whisper audio.mp3 --language Chinese --model base

如果你想要生成字幕文件,比如 srt 格式的,直接加个参数就行:

# 输出为srt字幕格式,直接就能给视频用!
whisper audio.mp3 --language Chinese --model base --output_format srt

还可以指定输出的目录,把结果都放一起:

# 指定输出目录
whisper audio.mp3 --language Chinese --model base --output_dir ./transcripts
我的测试结果

我把之前生成的所有语音都用 whisper 识别了一遍,全部都成功了!

  • 中文识别准确率真的很高,几乎没有错误

  • 支持的输出格式超多:txt, srt, vtt, json, tsv,想要啥格式都有


📁 测试文件汇总

我所有的测试文件都放在 \~/file/ 目录里,给大家做个参考:

~/file/
├── edge_xiaoxiao.mp3      # edge-tts 温暖女声
├── edge_yunxi.mp3         # edge-tts 阳光男声
├── edge_yunyang.mp3       # edge-tts 专业男声
├── piper_huayan.wav       # piper 离线语音
├── edge_xiaoxiao.txt      # whisper 识别结果
├── edge_yunxi.txt         # whisper 识别结果
├── edge_yunyang.txt       # whisper 识别结果
└── piper_huayan.txt       # whisper 识别结果

💡 场景推荐:不同情况选什么工具?

根据我的测试,给大家整理了不同场景下的工具推荐,直接照着选就好:

场景 推荐工具 理由
在线服务、视频配音 edge-tts 音质最佳,语音选择多,效果最好
离线应用、无网环境 piper-tts 无需网络,速度快,本地就能跑
高精度识别、专业转写 whisper (medium/large) 准确率最高,细节拉满
实时识别、快速转写 whisper (tiny/base) 速度快,够用就行

⚡ 命令速查:复制就能用!

给大家整理了最常用的指令,直接复制就能用,不用翻来翻去啦!

# ========== edge-tts 生成在线语音 ==========
edge-tts --text "你的文本内容" --voice zh-CN-XiaoxiaoNeural --write-media out.mp3

# ========== piper 生成离线语音 ==========
echo "你的文本内容" | piper --model ~/.local/share/piper/zh_CN-huayan-medium.onnx --output_file out.wav

# ========== whisper 语音识别 ==========
whisper 你的音频文件.mp3 --language Chinese --model base

🔧 环境配置说明

我是在 Python 虚拟环境里测试的,大家如果怕搞乱自己的环境,也可以用虚拟环境:

虚拟环境路径: \~/\.venv/tts 激活环境:

source ~/.venv/tts/bin/activate

我测试用的包版本,大家可以参考一下,避免版本不对出问题:

  • edge-tts (7.2.8)

  • piper-tts (1.4.2)

  • openai-whisper (20250625)

  • torch (2.11.0)


📌 最后说两句

所有的这些工具和指令我都已经在服务器上全部测试过了,都是亲测可用的,大家直接复制指令就能用,不用自己踩坑啦!

不管你是要做视频配音,还是要自动转字幕,或者是要做离线的语音功能,这三个工具基本都能覆盖你的需求了!

如果大家在使用过程中遇到什么问题,或者想要更多工具教程,欢迎在评论区留言! 如果这篇教程对你有帮助的话,别忘了一键三连支持一下哦~

(注:文档部分内容可能由 AI 生成)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐