我让 AI 学会了“听话“——给 Claude Code 装上语音输入
本文介绍 claude-speak:一个让你可以对着 Claude Code 说话的工具。
起因:手速跟不上脑速
用 Claude Code 写代码的时候,你有没有遇到过这种情况:
脑子里已经想好了一大段需求,手还在慢慢敲,等打完字,思路已经凉了一半。
或者更惨——刚想到一个绝妙的 prompt,结果打字打到一半,忘了后半句。
如果你认同"说话比打字快"这个朴素真理,那 claude-speak 是为你准备的。
它是什么
claude-speak 是一个本地语音输入工具,专为 Claude Code 设计。
按住按键 → 说话 → 松开 → 文字自动出现在输入框。
就这么简单。没有云端,没有 API Key,没有月费,没有隐私顾虑。语音在你自己的电脑上转写,完事。
底层用的是 faster-whisper,OpenAI Whisper 的本地优化版本,中文识别尤其好用。
它能干什么
能干的事:
-
口述需求,直接变成 prompt 发给 Claude
-
说中文,也能识别(而且识别得不错)
-
解放双手,适合边思考边说的工作方式
-
完全离线,敏感项目也放心用
干不了的事:
-
替你想清楚要说什么(这个还得靠你自己)
-
在嘈杂的咖啡馆里准确识别你的声音(建议用耳机)
-
让旁边的同事不对你投来奇怪的眼神
安装
第一步:下载项目
从 GitHub 下载或克隆本仓库到本地。
第二步:一键安装
Windows(推荐以管理员身份运行):
install.bat
macOS / Linux:
chmod +x install.sh && ./install.sh
安装脚本会自动完成三件事:
-
安装 Python 依赖(faster-whisper、sounddevice 等)
-
把
speak.py复制到~/.claude/scripts/ -
把
SKILL.md复制到~/.claude/skills/speak/(让 Claude Code 认识这个技能)
第三步:运行
打开一个新终端(不要关掉 Claude Code),运行:
# Windows(用绝对路径更稳) python C:\Users\你的用户名\.claude\scripts\speak.py --model small --lang zh --key caps_lock # macOS / Linux python ~/.claude/scripts/speak.py --model small --lang zh --key caps_lock
第一次运行会自动下载 Whisper 模型(small 模型约 500 MB),下载一次,永久可用。
macOS 用户:系统会弹窗要求辅助功能权限,点允许即可。路径在:系统设置 → 隐私与安全性 → 辅助功能。
使用方法
-
保持 speak 终端在后台运行
-
点击 Claude Code 的输入框,确保光标在里面
-
按住 Caps Lock(或你设定的触发键)
-
说话,看到 🔴 录音中...
-
松开按键,等待 🔄 转写中...
-
✅ 文字自动出现在输入框,回车发送即可
如果自动粘贴没生效,文字也会同时打印在 speak 终端里,手动复制就行。
参数调整
| 参数 | 推荐值 | 说明 |
|---|---|---|
--model |
small |
中文识别准确度最佳;base 速度更快但稍差 |
--lang |
zh |
指定中文,避免被识别成奇怪的语言 |
--key |
caps_lock |
推荐,不容易误触,也不影响其他快捷键 |
其他可用触发键:right_alt、f9、space(space 慎用,会疯狂触发)。
与 Claude Code 的深度集成
安装完成后,在 Claude Code 里输入 /speak,Claude 会自动加载语音技能,给你提供:
-
当前环境的安装指引
-
故障排除建议
-
参数推荐
也就是说,你可以问 Claude"我的语音输入怎么不好用",然后它真的知道你在说什么,并且能帮你排查。这个闭环还挺有意思的。
常见问题
按键完全没反应? Windows 请以管理员身份运行终端。keyboard 库需要高权限才能监听全局热键。
Ctrl+C 停不掉? 确保用的是最新版 speak.py(v2 已修复这个问题)。
识别出来的中文很奇怪? 加上 --lang zh --model small,别让模型自己猜语言。
强制关掉窗口后,PowerShell 快捷键全乱了? 同样是 v2 修复的问题。如果已经乱了,重启终端即可恢复。
说话没被识别到,显示"Silence detected"? 检查系统麦克风权限,或者离麦克风近一点说。
工作原理(给好奇的人)
你说话 ↓ sounddevice 通过系统麦克风录音(16 kHz 单声道) ↓ faster-whisper 在本地 CPU 上运行 Whisper 模型转写 ↓ 文字写入剪贴板 ↓ 模拟 Ctrl+V 粘贴到当前焦点窗口 ↓ 你看到文字出现在 Claude Code 输入框
全程在本地完成,网络只在首次下载模型时用一次。
结语
说到底,这个工具解决的是一个很具体的问题:降低"想到"和"说出来"之间的摩擦。
打字慢不是你的错,是键盘的局限。现在你有了别的选择。
装上试试,也许你会发现,和 AI 对话,说话比打字更自然。
代码仓库:AI_Skills/claude-speak
开源免费,无须其他key,本地运行
效果图:

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)