项目分享|videocut-skills:Claude Code专属视频剪辑Agent,一键搞定口播优化
引言
口播视频创作中,剪辑口误、删除静音、添加字幕等后期工作往往耗时费力,传统剪辑工具需要手动逐帧操作,效率低下且容易遗漏。videocut-skills的开源为创作者带来了福音,作为专为Claude Code设计的视频剪辑技能包,它将AI智能与视频剪辑深度结合,实现口误识别、静音删除、字幕生成等核心功能的自动化,让口播视频后期处理从“小时级”压缩到“分钟级”。本文将从项目概况、核心优势与应用、技术原理与部署实践三方面,全面解析这款高效剪辑工具。
项目概况
videocut-skills是Ceeon团队开发的Claude Code专属视频剪辑Agent,基于MIT开源协议,目前在GitHub收获494 stars、108 forks,于2026年1月15日正式发布,核心定位是“口播视频自动化后期处理工具”。
该项目以Claude Code Skills为载体,集成了口误识别、静音检测、语气词处理、字幕生成、自更新五大核心功能,无需手动操作时间轴,仅通过简单命令即可完成口播视频的全流程优化。项目依赖Python 3.8+环境,核心技术支撑包括FFmpeg(视频处理)、FunASR(口误识别)、Whisper large-v3(字幕转录),模型总大小约5GB,安装过程自动化,无需复杂配置。
项目采用模块化设计,包含“剪口播”“剪辑”“字幕”“安装”“自更新”五大技能模块,支持从视频转录、问题片段识别、剪辑执行到字幕烧录的全流程自动化,还能学习用户剪辑偏好,越用越贴合个人需求,大幅降低口播创作者的后期制作成本。
核心优势与应用场景
核心技术优势
- 全流程自动化,效率大幅提升:从视频转录、口误/静音/语气词识别,到剪辑执行、字幕生成,全程无需手动干预,仅需用户确认审查稿,将口播视频后期处理时间缩短80%以上。
- 精准识别能力,处理更干净:基于FunASR专业语音识别模型,实现逐字级口误检测,精准定位“嗯”“啊”“哎”等语气词,同时自动识别≥1秒的静音片段,识别准确率高,避免遗漏或误删。
- 高质量字幕生成,省心省力:采用Whisper large-v3模型转录文本,搭配词典纠正功能优化字幕准确性,生成质量优于传统剪辑工具,还支持自动烧录到视频中,无需额外编辑。
- 个性化自更新,越用越顺手:支持用户反馈剪辑偏好,Agent会记录并更新处理规则,适配不同创作者的语言习惯(如特定语气词、口误类型),实现个性化剪辑效果。
- 操作极简,上手门槛低:通过Claude Code命令触发功能,无需学习复杂的剪辑软件操作,仅需输入
/videocut:剪口播等简单指令,即可启动对应功能,非技术用户也能快速掌握。 - 深度集成Claude Code,生态协同:作为Claude Code Skills,可与Claude的文本理解、对话交互能力深度协同,支持自然语言描述剪辑需求,进一步降低操作复杂度。
典型应用场景
- 口播博主日常创作:自媒体、知识博主制作口播视频时,快速处理录制过程中的口误、静音和语气词,搭配自动字幕生成,大幅缩短后期制作周期,专注内容创作。
- 直播回放剪辑:将长时长直播回放自动处理为短视频片段,删除无效静音、重复表述,保留核心内容并添加字幕,提升短视频生产效率。
- 在线课程制作:教师录制教学视频后,通过工具快速优化音频流畅度,删除口误和长时间停顿,生成清晰字幕,提升课程观看体验。
- 企业宣传口播:企业制作产品介绍、品牌宣传等口播视频时,确保内容流畅专业,避免口误影响品牌形象,同时降低后期制作成本。
- 新手创作者入门:对剪辑操作不熟悉的新手,无需学习复杂软件,通过简单命令即可完成专业级后期处理,快速产出高质量口播视频。
- 批量视频处理:需要同时处理多个口播视频(如系列课程、多集短视频)时,工具的自动化能力可显著提升批量生产效率,保证所有视频的处理质量一致。
技术原理与部署实践
核心技术原理
videocut-skills的技术核心围绕“语音识别-智能决策-视频处理-字幕生成”的自动化流程展开,各模块协同实现高效剪辑:
- 语音转录与识别模块:基于Whisper large-v3模型将视频中的语音转换为文本,同时通过FunASR模型进行语音分析,精准识别口误、语气词(基于语音特征与文本语义匹配)和静音片段(基于音频能量阈值检测)。
- 智能决策模块:Claude Code根据识别结果生成视频审查稿,标记需要删除的片段位置与原因,等待用户确认后,制定剪辑方案(如片段删除范围、剪辑顺序)。
- 视频剪辑模块:调用FFmpeg工具执行剪辑操作,按决策方案删除冗余片段,同时支持循环审查机制,剪辑后重新检测是否存在遗漏的口误/静音,确保处理干净。
- 字幕生成与烧录模块:Whisper转录的文本经词典纠正后,生成标准字幕文件(如SRT格式),再通过FFmpeg将字幕烧录到视频中,支持调整字幕样式与位置。
- 自更新模块:记录用户的反馈(如保留特定语气词、调整静音检测阈值),更新内部处理规则库,实现个性化适配。
环境搭建与部署
1. 前置准备
确保已安装Claude Code,且本地环境满足:
- Python 3.8+
- 足够的存储空间(模型下载约需5GB)
- 网络通畅(用于下载依赖与模型)
2. 安装技能包
# 克隆项目到Claude Code的skills目录(适配macOS/Linux)
git clone https://github.com/Ceeon/videocut-skills.git ~/.claude/skills/videocut
# Windows系统克隆命令
git clone https://github.com/Ceeon/videocut-skills.git %USERPROFILE%\.claude\skills\videocut
3. 自动安装依赖与模型
打开Claude Code,在对话框中输入以下命令,Agent会自动安装FFmpeg、FunASR、Whisper等依赖,并下载对应模型:
/videocut:安装
等待安装完成(约5-10分钟,取决于网络速度),出现“安装成功”提示即可使用。
核心功能使用示例
示例1:口播视频优化全流程
# 1. 上传口播视频到Claude Code(支持本地文件或URL)
# 2. 触发口误/静音识别,生成审查稿
/videocut:剪口播
# 3. 查看Claude Code生成的审查稿,确认需要删除的片段
# (审查稿示例:00:01:23-00:01:25 识别到语气词"嗯";00:03:10-00:03:12 识别到静音片段)
# 4. 确认后执行剪辑,循环审查直到无冗余片段
/videocut:剪辑
# 5. 生成并烧录字幕
/videocut:字幕
# 6. 反馈偏好,让Agent自更新(如"保留'其实'这个词,静音检测阈值调整为1.5秒")
/videocut:自更新 保留"其实"这个词,静音检测阈值调整为1.5秒
示例2:单独生成并烧录字幕
# 仅对已剪辑好的视频添加字幕
/videocut:字幕 请为这个视频生成中文字幕并烧录,字幕颜色为白色,字体大小24号
示例3:批量处理多个视频
# 上传多个口播视频后,触发批量处理
/videocut:剪口播 请批量处理所有上传的视频,删除口误、语气词和≥1秒的静音,处理完成后统一生成字幕并烧录
注意事项
- 模型下载:首次安装需下载约5GB模型,建议在网络通畅的环境下进行,避免中断;
- 视频格式支持:支持主流视频格式(MP4、MOV、AVI等),若遇到格式不兼容问题,可先通过FFmpeg转换为MP4格式;
- 审查确认:剪辑前务必查看审查稿,避免Agent误删重要内容,尤其是专业术语、特定表述等;
- 性能要求:处理长时长视频(如1小时以上)时,建议确保设备有足够的内存(≥8GB)和CPU/GPU性能,提升处理速度;
- 字幕优化:若字幕存在个别错误,可手动反馈给Agent,触发自更新功能,后续生成的字幕准确性会逐步提升。
该项目及相关内容已AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源
项目地址:AladdinEdu课题广场
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)