用AI Agent搭建个人知识工作流:从音视频内容到结构化知识库的自动化实践
什么是AI知识工作流
AI Agent的概念今年很火,但大部分讨论都集中在代码生成、客服对话这些场景。其实有一个更贴近日常的用法——用AI Agent搭建个人知识工作流,把音视频内容自动转化成结构化知识。
传统方式处理一个视频的流程是这样的:
看视频 → 暂停记笔记 → 回放补漏 → 手动整理排版 → 画思维导图 → 导入知识库
每个环节都需要人工操作,一个30分钟的视频至少要花1小时。
AI工作流做的事情是:把中间的机械劳动全部交给AI Agent,人只做筛选和思考。
粘贴链接 → AI自动转写+结构化+生成导图 → 人筛选有价值的 → 自动导入知识库
这篇文章分享我用Ai好记搭建的一套完整的AI知识工作流。

工作流架构
整套工作流分4个阶段,每个阶段对应不同的AI能力:
阶段1:内容摄入(AI Agent:链接解析+语音转写)
输入: 视频/播客/会议录音的在线链接或文件

AI做的事:
- 解析在线链接(B站、小红书、抖音、小宇宙等平台直接粘链接)
- 语音转文字(带时间戳)
- 关键帧提取(视频中的PPT、代码截图自动抓取)
- 说话人识别(多人对话场景自动区分)
支持的输入方式:
| 来源 | 操作 | 技术说明 |
|---|---|---|
| B站/小红书/抖音 | 粘链接 | 直接解析,不需要下载 |
| 播客平台 | 粘贴链接 | 支持小宇宙、Apple Podcast |
| 网盘(百度/阿里) | 绑定账号 | 网盘直连,不占本地存储 |
| 腾讯会议 | 会议链接 | 会议纪要场景 |
| 本地文件 | 上传音视频 | 支持mp4/mp3/wav等,7h以内、4GB以内 |
耗时: 一个45分钟的视频,AI处理大约2-3分钟。
阶段2:内容结构化(AI Agent:NLP理解+结构化输出)
AI做的事:
- 不是简单转文字,而是理解内容后重新组织
- 按讨论话题自动分章节
- 提炼核心观点、关键论据
- 生成专业术语解释
- 基于内容生成深度问答(Q&A对)

产出物:
| 产出 | 说明 |
|---|---|
| 沉浸式阅读笔记 | 文字+视频关键帧截图整合,原文/润色双版本 |
| 精华速览 | 200-300字核心要点,一分钟速读 |
| 深度问答 | AI自动生成的Q&A对,可直接做复习题 |
模板化输出: 支持多种总结模板,不同场景选不同模板:

| 模板 | 输出结构 |
|---|---|
| 学习整理 | 知识点梳理 + 要点归纳 |
| 会议纪要 | 决策事项 + 待办分工 + 关键讨论 |
| 职场复盘 | 成果总结 + 问题分析 + 改进计划 |
| 自媒体拆解 | 选题分析 + 素材整理 |
| 教学备课 | 教学目标 + 知识点 + 课堂设计 |
模板选对了,AI输出的结构就是你想要的格式,不需要二次整理。
阶段3:知识可视化(AI Agent:知识图谱生成)
AI做的事:
- 基于结构化内容自动生成思维导图
- 多层级展开(2/3/4级)
- 节点关联到视频对应的时间段

导出格式:
| 格式 | 用途 |
|---|---|
| PNG | 插入文档/PPT |
| 打印或分享 | |
| SVG | 矢量图,可编辑 |
| Markdown | 导入Obsidian/Notion |
| Xmind | 专业思维导图软件继续编辑 |
| JSON/TXT | 程序化处理 |
7种导出格式覆盖了几乎所有后续使用场景。
阶段4:知识沉淀(AI Agent:自动同步+知识库管理)

AI做的事:
- 一键同步到Obsidian(笔记+思维导图+速览一起导入)
- 自动存入工具内置知识库
- 支持全局搜索(搜关键词找到知识点在哪节课)
- 三级目录分类、批量操作、回收站
完整工作流示例
拿一个具体场景来说。我每天的信息摄入来源大概是:
- 3-4个B站技术教程视频
- 1-2期播客
- 1场团队会议
用这套工作流的处理方式:
第1步:批量摄入(5分钟)
早上到公司:
1. 把昨天收藏的4个B站视频链接粘贴到Ai好记
2. 把通勤听的2期播客链接粘贴
3. 把昨天的会议录音上传
4. 点击批量解析
AI开始后台处理,我去做别的事。
第2步:筛选(10分钟)
处理完成后:
1. 扫读每个视频/播客的精华速览(每篇1分钟)
2. 标记"值得深读"和"扫一遍就行"的
3. 不相关的直接跳过
第3步:深度消化(20分钟)
值得深读的内容:
1. 阅读结构化笔记
2. 重点部分划线标注
3. 不懂的地方用AI对话提问
4. 用"自问自答"模式做自测
第4步:导出到知识库(2分钟)
1. 一键同步到Obsidian
2. 在Obsidian里补充双向链接
3. 完成
每天投入约35分钟,处理6-7个音视频内容。 手动方式处理同样数量的内容至少要5-6小时。
6种AI学习模式
工具内置了基于DeepSeek R1的6种学习模式,这是工作流中"深度消化"环节的核心能力:
| 模式 | AI做的事 | 适用场景 |
|---|---|---|
| 自问自答 | 基于内容生成问答题 | 学完后做自测,找出薄弱环节 |
| 批判性思考 | 提出反对意见和质疑 | 检验是否真正理解了内容 |
| 阅读扩展 | 推荐延伸方向和相关主题 | 想进一步深入某个领域 |
| 学习计划 | 制定后续学习路线 | 课程太长,不知道怎么安排 |
| 会议总结 | 整理成会议纪要格式 | 培训内容的二次整理 |
| 快速复习 | 生成复习提纲 | 考前快速回顾 |
这些模式不是独立的工具,而是嵌入在工作流中的AI Agent能力。你在笔记页面直接切换,不需要跳出当前上下文。
AI对话:工作流中的问答Agent
除了预设的学习模式,还有一个自由度更高的AI Agent——基于内容的AI对话。
你可以对处理后的任何音视频内容直接提问:
| 场景 | 示例问题 |
|---|---|
| 概念澄清 | “这节课讲的X和Y的区别是什么?” |
| 细节回溯 | “课程里提到的那个第三方库叫什么?” |
| 跨内容关联 | “跟上一节课的知识点有什么联系?” |
| 实践验证 | “这个方法在实际项目中效果怎么样?” |
AI回答后会标注引用的时间段,你可以点击跳转到原始视频验证。
这个功能本质上是一个领域问答Agent——它的知识限定在你喂给它的音视频内容范围内,不会瞎编,回答有据可查。
这套工作流的技术栈
从技术角度看,这套工作流涉及几个层面:
| 层面 | 技术 |
|---|---|
| 语音识别 | ASR引擎,支持中文+22种语言 |
| 自然语言处理 | 内容理解、结构化、摘要生成 |
| 知识图谱 | 思维导图自动生成 |
| 大语言模型 | DeepSeek R1驱动的学习模式和AI对话 |
| 知识库管理 | 三级目录、全局搜索、Obsidian同步 |
这些技术打包在一个工具里,用户不需要关心底层实现,粘链接就行。
适用场景
| 场景 | 工作流怎么用 |
|---|---|
| 技术学习 | B站教程→笔记+导图→Obsidian长期管理 |
| 会议管理 | 录音→结构化纪要→团队共享 |
| 播客整理 | 播客链接→文字笔记→可搜索知识库 |
| 网课复习 | 视频课程→精华速览+自测题→高效复习 |
| 内容创作 | 竞品视频→AI拆解→素材积累 |
不足
客观说几个限制:
- 免费额度有限 — 新用户60分钟,深度使用需要付费
- 转写准确率不是最高 — 对准确率要求极高的场景(如法律笔录)建议搭配专业转写工具
- 学习成本 — 需要熟悉工具的各个功能模块,不是打开就会用的
- 新工具 — 生态还在完善中,目前没有浏览器插件
新用户免费额度,建议拿你日常最常看的几个视频跑通完整工作流。有问题欢迎评论区交流。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)