用AI Agent搭建个人知识工作流：从音视频内容到结构化知识库的自动化实践

searchforAI

924人浏览 · 2026-04-29 18:30:21

searchforAI · 2026-04-29 18:30:21 发布

什么是AI知识工作流

AI Agent的概念今年很火，但大部分讨论都集中在代码生成、客服对话这些场景。其实有一个更贴近日常的用法——用AI Agent搭建个人知识工作流，把音视频内容自动转化成结构化知识。

传统方式处理一个视频的流程是这样的：

看视频 → 暂停记笔记 → 回放补漏 → 手动整理排版 → 画思维导图 → 导入知识库

每个环节都需要人工操作，一个30分钟的视频至少要花1小时。

AI工作流做的事情是：把中间的机械劳动全部交给AI Agent，人只做筛选和思考。

粘贴链接 → AI自动转写+结构化+生成导图 → 人筛选有价值的 → 自动导入知识库

这篇文章分享我用Ai好记搭建的一套完整的AI知识工作流。

在这里插入图片描述

工作流架构

整套工作流分4个阶段，每个阶段对应不同的AI能力：

阶段1：内容摄入（AI Agent：链接解析+语音转写）

输入： 视频/播客/会议录音的在线链接或文件

在这里插入图片描述

AI做的事：

解析在线链接（B站、小红书、抖音、小宇宙等平台直接粘链接）
语音转文字（带时间戳）
关键帧提取（视频中的PPT、代码截图自动抓取）
说话人识别（多人对话场景自动区分）

支持的输入方式：

来源	操作	技术说明
B站/小红书/抖音	粘链接	直接解析，不需要下载
播客平台	粘贴链接	支持小宇宙、Apple Podcast
网盘（百度/阿里）	绑定账号	网盘直连，不占本地存储
腾讯会议	会议链接	会议纪要场景
本地文件	上传音视频	支持mp4/mp3/wav等，7h以内、4GB以内

耗时： 一个45分钟的视频，AI处理大约2-3分钟。

阶段2：内容结构化（AI Agent：NLP理解+结构化输出）

AI做的事：

不是简单转文字，而是理解内容后重新组织
按讨论话题自动分章节
提炼核心观点、关键论据
生成专业术语解释
基于内容生成深度问答（Q&A对）

在这里插入图片描述

产出物：

产出	说明
沉浸式阅读笔记	文字+视频关键帧截图整合，原文/润色双版本
精华速览	200-300字核心要点，一分钟速读
深度问答	AI自动生成的Q&A对，可直接做复习题

模板化输出： 支持多种总结模板，不同场景选不同模板：

在这里插入图片描述

模板	输出结构
学习整理	知识点梳理 + 要点归纳
会议纪要	决策事项 + 待办分工 + 关键讨论
职场复盘	成果总结 + 问题分析 + 改进计划
自媒体拆解	选题分析 + 素材整理
教学备课	教学目标 + 知识点 + 课堂设计

模板选对了，AI输出的结构就是你想要的格式，不需要二次整理。

阶段3：知识可视化（AI Agent：知识图谱生成）

AI做的事：

基于结构化内容自动生成思维导图
多层级展开（2/3/4级）
节点关联到视频对应的时间段

在这里插入图片描述

导出格式：

格式	用途
PNG	插入文档/PPT
PDF	打印或分享
SVG	矢量图，可编辑
Markdown	导入Obsidian/Notion
Xmind	专业思维导图软件继续编辑
JSON/TXT	程序化处理

7种导出格式覆盖了几乎所有后续使用场景。

阶段4：知识沉淀（AI Agent：自动同步+知识库管理）

在这里插入图片描述

AI做的事：

一键同步到Obsidian（笔记+思维导图+速览一起导入）
自动存入工具内置知识库
支持全局搜索（搜关键词找到知识点在哪节课）
三级目录分类、批量操作、回收站

完整工作流示例

拿一个具体场景来说。我每天的信息摄入来源大概是：

3-4个B站技术教程视频
1-2期播客
1场团队会议

用这套工作流的处理方式：

第1步：批量摄入（5分钟）

早上到公司：
1. 把昨天收藏的4个B站视频链接粘贴到Ai好记
2. 把通勤听的2期播客链接粘贴
3. 把昨天的会议录音上传
4. 点击批量解析

AI开始后台处理，我去做别的事。

第2步：筛选（10分钟）

处理完成后：
1. 扫读每个视频/播客的精华速览（每篇1分钟）
2. 标记"值得深读"和"扫一遍就行"的
3. 不相关的直接跳过

第3步：深度消化（20分钟）

值得深读的内容：
1. 阅读结构化笔记
2. 重点部分划线标注
3. 不懂的地方用AI对话提问
4. 用"自问自答"模式做自测

第4步：导出到知识库（2分钟）

1. 一键同步到Obsidian
2. 在Obsidian里补充双向链接
3. 完成

每天投入约35分钟，处理6-7个音视频内容。 手动方式处理同样数量的内容至少要5-6小时。

6种AI学习模式

工具内置了基于DeepSeek R1的6种学习模式，这是工作流中"深度消化"环节的核心能力：

模式	AI做的事	适用场景
自问自答	基于内容生成问答题	学完后做自测，找出薄弱环节
批判性思考	提出反对意见和质疑	检验是否真正理解了内容
阅读扩展	推荐延伸方向和相关主题	想进一步深入某个领域
学习计划	制定后续学习路线	课程太长，不知道怎么安排
会议总结	整理成会议纪要格式	培训内容的二次整理
快速复习	生成复习提纲	考前快速回顾

这些模式不是独立的工具，而是嵌入在工作流中的AI Agent能力。你在笔记页面直接切换，不需要跳出当前上下文。

AI对话：工作流中的问答Agent

除了预设的学习模式，还有一个自由度更高的AI Agent——基于内容的AI对话。

你可以对处理后的任何音视频内容直接提问：

场景	示例问题
概念澄清	“这节课讲的X和Y的区别是什么？”
细节回溯	“课程里提到的那个第三方库叫什么？”
跨内容关联	“跟上一节课的知识点有什么联系？”
实践验证	“这个方法在实际项目中效果怎么样？”

AI回答后会标注引用的时间段，你可以点击跳转到原始视频验证。

这个功能本质上是一个领域问答Agent——它的知识限定在你喂给它的音视频内容范围内，不会瞎编，回答有据可查。

这套工作流的技术栈

从技术角度看，这套工作流涉及几个层面：

层面	技术
语音识别	ASR引擎，支持中文+22种语言
自然语言处理	内容理解、结构化、摘要生成
知识图谱	思维导图自动生成
大语言模型	DeepSeek R1驱动的学习模式和AI对话
知识库管理	三级目录、全局搜索、Obsidian同步

这些技术打包在一个工具里，用户不需要关心底层实现，粘链接就行。

适用场景

场景	工作流怎么用
技术学习	B站教程→笔记+导图→Obsidian长期管理
会议管理	录音→结构化纪要→团队共享
播客整理	播客链接→文字笔记→可搜索知识库
网课复习	视频课程→精华速览+自测题→高效复习
内容创作	竞品视频→AI拆解→素材积累

不足

客观说几个限制：

免费额度有限 — 新用户60分钟，深度使用需要付费
转写准确率不是最高 — 对准确率要求极高的场景（如法律笔录）建议搭配专业转写工具
学习成本 — 需要熟悉工具的各个功能模块，不是打开就会用的
新工具 — 生态还在完善中，目前没有浏览器插件

工具地址：https://www.aihaoji.com

新用户免费额度，建议拿你日常最常看的几个视频跑通完整工作流。有问题欢迎评论区交流。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI推理模型工程2026：从o3到DeepSeek-R1的工程化落地实践

推理链质量 > 最终答案正确性，过程才是价值所在推理模型代表的不仅是技术进步，更是AI应用从"快速响应"向"深度思考"转变的范式迁移。- o1：首代推理模型，引入"thinking tokens"概念- o3：重大升级，ARC-AGI得分超87%（人类均值85%）- o4-mini：轻量高效版，适合高频推理场景。## 什么是推理模型？- DeepSeek-R1：开源推理模型，AIME 2024满分