本文介绍 claude-speak:一个让你可以对着 Claude Code 说话的工具。


起因:手速跟不上脑速

用 Claude Code 写代码的时候,你有没有遇到过这种情况:

脑子里已经想好了一大段需求,手还在慢慢敲,等打完字,思路已经凉了一半。

或者更惨——刚想到一个绝妙的 prompt,结果打字打到一半,忘了后半句。

如果你认同"说话比打字快"这个朴素真理,那 claude-speak 是为你准备的。


它是什么

claude-speak 是一个本地语音输入工具,专为 Claude Code 设计。

按住按键 → 说话 → 松开 → 文字自动出现在输入框。

就这么简单。没有云端,没有 API Key,没有月费,没有隐私顾虑。语音在你自己的电脑上转写,完事。

底层用的是 faster-whisper,OpenAI Whisper 的本地优化版本,中文识别尤其好用。


它能干什么

能干的事:

  • 口述需求,直接变成 prompt 发给 Claude

  • 说中文,也能识别(而且识别得不错)

  • 解放双手,适合边思考边说的工作方式

  • 完全离线,敏感项目也放心用

干不了的事:

  • 替你想清楚要说什么(这个还得靠你自己)

  • 在嘈杂的咖啡馆里准确识别你的声音(建议用耳机)

  • 让旁边的同事不对你投来奇怪的眼神


安装

第一步:下载项目

从 GitHub 下载或克隆本仓库到本地。

第二步:一键安装

Windows(推荐以管理员身份运行):

install.bat

macOS / Linux:

chmod +x install.sh && ./install.sh

安装脚本会自动完成三件事:

  1. 安装 Python 依赖(faster-whisper、sounddevice 等)

  2. speak.py 复制到 ~/.claude/scripts/

  3. SKILL.md 复制到 ~/.claude/skills/speak/(让 Claude Code 认识这个技能)

第三步:运行

打开一个新终端(不要关掉 Claude Code),运行:

# Windows(用绝对路径更稳)
python C:\Users\你的用户名\.claude\scripts\speak.py --model small --lang zh --key caps_lock
​
# macOS / Linux
python ~/.claude/scripts/speak.py --model small --lang zh --key caps_lock

第一次运行会自动下载 Whisper 模型(small 模型约 500 MB),下载一次,永久可用。

macOS 用户:系统会弹窗要求辅助功能权限,点允许即可。路径在:系统设置 → 隐私与安全性 → 辅助功能。


使用方法

  1. 保持 speak 终端在后台运行

  2. 点击 Claude Code 的输入框,确保光标在里面

  3. 按住 Caps Lock(或你设定的触发键)

  4. 说话,看到 🔴 录音中...

  5. 松开按键,等待 🔄 转写中...

  6. ✅ 文字自动出现在输入框,回车发送即可

如果自动粘贴没生效,文字也会同时打印在 speak 终端里,手动复制就行。


参数调整

参数 推荐值 说明
--model small 中文识别准确度最佳;base 速度更快但稍差
--lang zh 指定中文,避免被识别成奇怪的语言
--key caps_lock 推荐,不容易误触,也不影响其他快捷键

其他可用触发键:right_altf9space(space 慎用,会疯狂触发)。


与 Claude Code 的深度集成

安装完成后,在 Claude Code 里输入 /speak,Claude 会自动加载语音技能,给你提供:

  • 当前环境的安装指引

  • 故障排除建议

  • 参数推荐

也就是说,你可以问 Claude"我的语音输入怎么不好用",然后它真的知道你在说什么,并且能帮你排查。这个闭环还挺有意思的。


常见问题

按键完全没反应? Windows 请以管理员身份运行终端。keyboard 库需要高权限才能监听全局热键。

Ctrl+C 停不掉? 确保用的是最新版 speak.py(v2 已修复这个问题)。

识别出来的中文很奇怪? 加上 --lang zh --model small,别让模型自己猜语言。

强制关掉窗口后,PowerShell 快捷键全乱了? 同样是 v2 修复的问题。如果已经乱了,重启终端即可恢复。

说话没被识别到,显示"Silence detected"? 检查系统麦克风权限,或者离麦克风近一点说。


工作原理(给好奇的人)

你说话
  ↓
sounddevice 通过系统麦克风录音(16 kHz 单声道)
  ↓
faster-whisper 在本地 CPU 上运行 Whisper 模型转写
  ↓
文字写入剪贴板
  ↓
模拟 Ctrl+V 粘贴到当前焦点窗口
  ↓
你看到文字出现在 Claude Code 输入框

全程在本地完成,网络只在首次下载模型时用一次。


结语

说到底,这个工具解决的是一个很具体的问题:降低"想到"和"说出来"之间的摩擦

打字慢不是你的错,是键盘的局限。现在你有了别的选择。

装上试试,也许你会发现,和 AI 对话,说话比打字更自然。

代码仓库:AI_Skills/claude-speak 

开源免费,无须其他key,本地运行

效果图:

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐