GitHub 地址https://github.com/browser-use/video-use

简介

video-use​ 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单:把原始素材扔进文件夹,用自然语言告诉 Claude Code(或 Codex、Hermes 等 Agent)你想要什么,直接拿回 final.mp4

它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro,也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog,只需一句指令,AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧,而是通过巧妙的“文本+按需视觉”架构,实现了极低 Token 消耗下的专业级剪辑。

主要功能

1. 全自动剪辑流水线

  • 智能粗剪:自动识别多段素材,根据语义(而非单纯的时间码)进行拼接。

  • 精准去“filler”:自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白,保留自然语流。

  • 音频美化:在每个剪切点自动添加 30ms 的音频淡入淡出,消除爆音和突兀感。

  • 视觉统一:支持对每段素材进行独立的色彩调级(如电影感暖色、中性冲击感),统一画面风格。

2. “读”视频而非“看”视频的架构

这是 video-use 最核心的技术创新。它通过两层结构,将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”:

  • Layer 1:音频转录(主视图):利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的 takes_packed.md文件,作为 LLM 推理的主要依据。

  • Layer 2:视觉合成(按需):仅在决策模糊时(如判断停顿是否该剪、对比重拍镜头),调用 timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。

这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 + 几张图”,实现了真正的实用化。

3. 质量自闭环

  • 自评估机制:渲染完成后,Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户,否则会自动修复并重渲染(最多 3 轮)。

  • 会话记忆:通过 project.md文件持久化剪辑上下文,支持下次打开 Claude Code 时从上次的进度继续编辑,非常适合长课程或播客的连载剪辑。

安装与配置

前置要求

  • Claude Code / OpenClaw 等 Agent 环境:需支持 Shell 访问和技能加载。

  • FFmpeg:必须安装,用于视频处理。

  • ElevenLabs API Key:用于高精度语音转录(获取地址:https://elevenlabs.io/app/settings/api-keys)。

安装步骤(Agent 自动模式)

推荐方式:直接在 Claude Code 中粘贴以下指令,Agent 会自动完成克隆、依赖安装和技能注册:

“请安装 video-use 技能。这是我的 ElevenLabs API Key: sk_xxxx。素材目录是 ~/Videos/my_project。”

安装步骤(手动模式)

如果你倾向于手动控制,或在其他 Agent 中使用:

  1. 克隆仓库

    git clone https://github.com/browser-use/video-use
    cd video-use
  2. 安装依赖

    pip install -e .
    brew install ffmpeg yt-dlp   # yt-dlp 用于下载在线素材(可选)
  3. 配置 API Key

    cp .env.example .env
    # 在 .env 文件中填入:ELEVENLABS_API_KEY=sk_your_key_here
  4. 注册技能(以 Claude Code 为例):

    # 创建软链接,将当前目录链接到 Claude 技能目录
    ln -s "$(pwd)" ~/.claude/skills/video-use

如何使用

基础工作流

  1. 准备素材:将所有拍摄的原始视频文件(MP4/MOV)放入一个文件夹(如 raw_footage)。

  2. 启动 Agent:在终端进入素材目录,启动 Claude Code。

  3. 下达指令:输入自然语言指令,例如:

    “把这些素材剪辑成一个 3 分钟的产品发布视频,去掉所有‘呃’和停顿,加上白色字幕,风格要偏科技感。”

  4. 确认与交付

    • Agent 会先扫描素材,生成一份剪辑策略(包括时长预估、片段顺序)并征求你的同意。

    • 确认后,Agent 开始全自动转录、剪辑和渲染。

    • 成品视频保存在 edit/final.mp4,中间文件(如字幕文件、EDL 剪辑清单)也均在 edit/目录下,技能目录本身保持干净。

进阶指令示例

  • 风格控制:“给这段访谈加一个电影感的暖色滤镜,片头加 5 秒的标题动画。”

  • 精细修剪:“保留所有带‘笑’的片段,但剪掉超过 2 秒的沉默。”

  • 批量处理:“遍历 videos/下的每个子文件夹,分别把每个文件夹里的素材剪成独立的成品。”

应用场景实例(无代码)

场景一:知识博主的内容量产

痛点:知识博主每周需录制多节课程。手动剪辑(去口癖、加字幕)耗时极长,且重复劳动令人疲惫。

video-use 方案

  1. 录制完成后,将视频文件拖入以“课程名”命名的文件夹。

  2. 在 Claude Code 中输入指令:“按讲课顺序剪辑,去掉所有口头禅,保留知识点连贯性,生成 1080P 带字幕视频。”

  3. 价值:将数小时的剪辑工作压缩为“一句话+等待渲染”的被动过程,博主可同时处理多个课程文件夹,实现内容量产。

场景二:企业产品更新视频的 CI/CD

痛点:每次 App 迭代,产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频,流程繁琐。

video-use 方案

  1. 将 Release Notes(Markdown)、新版 App 截图和配音脚本放入指定目录。

  2. 在 CI 流水线中集成 video-use,自动触发指令:“用素材生成 45 秒的竖版更新介绍视频,风格与官网一致。”

  3. 价值:实现了“提交代码即生成宣传视频”的全自动化流程,确保每次发布视频的风格统一且及时。

场景三:播客节目的“精剪”服务

痛点:播客节目通常长达 1-2 小时,包含大量闲聊和停顿,后期剪辑需要人工反复听校,成本极高。

video-use 方案

  1. 将录制的多轨音频(或视频)文件放入文件夹。

  2. 指令:“识别两位主播,剪掉所有非对话的空白和口水词,保留节目核心内容,输出 60 分钟的精剪版。”

  3. 价值:利用其强大的说话人分离和语义理解能力,将剪辑师从枯燥的“听全片”工作中解放出来,只需做最后的艺术性审核即可。

总结

video-use 不仅仅是一个工具,它代表了一种“Intent-based Editing”(基于意图的剪辑)新范式。它通过将视频抽象为“文本时间线”,让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说,它是降低视频制作门槛、实现规模化生产的终极利器。

GitHub 地址https://github.com/browser-use/video-use

核心依赖:ElevenLabs Scribe API(用于高精度转录)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐