【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐

旅之灵夫

246人浏览 · 2026-04-28 21:13:05

旅之灵夫 · 2026-04-28 21:13:05 发布

GitHub 地址：https://github.com/browser-use/video-use

简介

video-use 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单：把原始素材扔进文件夹，用自然语言告诉 Claude Code（或 Codex、Hermes 等 Agent）你想要什么，直接拿回 final.mp4。

它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro，也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog，只需一句指令，AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧，而是通过巧妙的“文本+按需视觉”架构，实现了极低 Token 消耗下的专业级剪辑。

主要功能

1. 全自动剪辑流水线

智能粗剪：自动识别多段素材，根据语义（而非单纯的时间码）进行拼接。
精准去“filler”：自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白，保留自然语流。
音频美化：在每个剪切点自动添加 30ms 的音频淡入淡出，消除爆音和突兀感。
视觉统一：支持对每段素材进行独立的色彩调级（如电影感暖色、中性冲击感），统一画面风格。

2. “读”视频而非“看”视频的架构

这是 video-use 最核心的技术创新。它通过两层结构，将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”：

Layer 1：音频转录（主视图）：利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的 takes_packed.md文件，作为 LLM 推理的主要依据。
Layer 2：视觉合成（按需）：仅在决策模糊时（如判断停顿是否该剪、对比重拍镜头），调用 timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。

这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 + 几张图”，实现了真正的实用化。

3. 质量自闭环

自评估机制：渲染完成后，Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户，否则会自动修复并重渲染（最多 3 轮）。
会话记忆：通过 project.md文件持久化剪辑上下文，支持下次打开 Claude Code 时从上次的进度继续编辑，非常适合长课程或播客的连载剪辑。

安装与配置

前置要求

Claude Code / OpenClaw 等 Agent 环境：需支持 Shell 访问和技能加载。
FFmpeg：必须安装，用于视频处理。
ElevenLabs API Key：用于高精度语音转录（获取地址：https://elevenlabs.io/app/settings/api-keys）。

安装步骤（Agent 自动模式）

推荐方式：直接在 Claude Code 中粘贴以下指令，Agent 会自动完成克隆、依赖安装和技能注册：

“请安装 video-use 技能。这是我的 ElevenLabs API Key: sk_xxxx。素材目录是 ~/Videos/my_project。”

安装步骤（手动模式）

如果你倾向于手动控制，或在其他 Agent 中使用：

克隆仓库：

git clone https://github.com/browser-use/video-use
cd video-use

安装依赖：

pip install -e .
brew install ffmpeg yt-dlp   # yt-dlp 用于下载在线素材（可选）

配置 API Key：

cp .env.example .env
# 在 .env 文件中填入：ELEVENLABS_API_KEY=sk_your_key_here

注册技能（以 Claude Code 为例）：

# 创建软链接，将当前目录链接到 Claude 技能目录
ln -s "$(pwd)" ~/.claude/skills/video-use

如何使用

基础工作流

准备素材：将所有拍摄的原始视频文件（MP4/MOV）放入一个文件夹（如 raw_footage）。
启动 Agent：在终端进入素材目录，启动 Claude Code。
下达指令：输入自然语言指令，例如：

“把这些素材剪辑成一个 3 分钟的产品发布视频，去掉所有‘呃’和停顿，加上白色字幕，风格要偏科技感。”
确认与交付：
- Agent 会先扫描素材，生成一份剪辑策略（包括时长预估、片段顺序）并征求你的同意。
- 确认后，Agent 开始全自动转录、剪辑和渲染。
- 成品视频保存在 edit/final.mp4，中间文件（如字幕文件、EDL 剪辑清单）也均在 edit/目录下，技能目录本身保持干净。

进阶指令示例

风格控制：“给这段访谈加一个电影感的暖色滤镜，片头加 5 秒的标题动画。”
精细修剪：“保留所有带‘笑’的片段，但剪掉超过 2 秒的沉默。”
批量处理：“遍历 videos/下的每个子文件夹，分别把每个文件夹里的素材剪成独立的成品。”

应用场景实例（无代码）

场景一：知识博主的内容量产

痛点：知识博主每周需录制多节课程。手动剪辑（去口癖、加字幕）耗时极长，且重复劳动令人疲惫。

video-use 方案：

录制完成后，将视频文件拖入以“课程名”命名的文件夹。
在 Claude Code 中输入指令：“按讲课顺序剪辑，去掉所有口头禅，保留知识点连贯性，生成 1080P 带字幕视频。”
价值：将数小时的剪辑工作压缩为“一句话+等待渲染”的被动过程，博主可同时处理多个课程文件夹，实现内容量产。

场景二：企业产品更新视频的 CI/CD

痛点：每次 App 迭代，产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频，流程繁琐。

video-use 方案：

将 Release Notes（Markdown）、新版 App 截图和配音脚本放入指定目录。
在 CI 流水线中集成 video-use，自动触发指令：“用素材生成 45 秒的竖版更新介绍视频，风格与官网一致。”
价值：实现了“提交代码即生成宣传视频”的全自动化流程，确保每次发布视频的风格统一且及时。

场景三：播客节目的“精剪”服务

痛点：播客节目通常长达 1-2 小时，包含大量闲聊和停顿，后期剪辑需要人工反复听校，成本极高。

video-use 方案：

将录制的多轨音频（或视频）文件放入文件夹。
指令：“识别两位主播，剪掉所有非对话的空白和口水词，保留节目核心内容，输出 60 分钟的精剪版。”
价值：利用其强大的说话人分离和语义理解能力，将剪辑师从枯燥的“听全片”工作中解放出来，只需做最后的艺术性审核即可。

总结

video-use 不仅仅是一个工具，它代表了一种“Intent-based Editing”（基于意图的剪辑）新范式。它通过将视频抽象为“文本时间线”，让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说，它是降低视频制作门槛、实现规模化生产的终极利器。

GitHub 地址：https://github.com/browser-use/video-use

核心依赖：ElevenLabs Scribe API（用于高精度转录）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI Agent Harness Engineering 在网络安全攻防中的角色

本文的核心目的是帮读者搞懂三个问题：什么是AI Agent Harness Engineering？它为什么是网络安全攻防场景下AI落地的必备基础设施？我们怎么在自己的安全团队里落地AHE？本文覆盖的范围包括AHE的核心概念、架构设计、核心算法、项目实战、落地场景、最佳实践等全链路内容，不涉及过于晦涩的底层大模型训练细节，所有知识点都可以直接落地到实际安全工作中。

AtomGit开源社区

deepseek生成的很多公式，复制到WORD中会乱码，我应该怎么做?

AtomGit开源社区

物流配送路径规划的动态Agent模型

物流成本占我国GDP的14.6%，其中路径规划不合理导致的浪费占物流总成本的30%以上，每年仅路径规划低效带来的直接损失就超过5万亿元。传统的物流路径规划大多基于静态VRP（车辆路径问题）模型：提前一天算好所有车辆的行驶路线，第二天按计划执行。但现实物流场景中存在大量不可控的动态因素：早晚高峰堵车、用户临时改地址、突发新增订单、骑手临时请假、极端天气导致路段封闭……这些动态事件会让提前规划好的路线