小白程序员必看：轻松打造大神同款AI知识库，附保姆级教程（收藏版）

m0_48891301

181人浏览 · 2026-04-12 11:15:00

m0_48891301 · 2026-04-12 11:15:00 发布

本文介绍了如何利用大型语言模型（LLMs）构建个人知识库，步骤包括创建文件夹结构、收集资料、编写AI说明书等。通过自动化工具和简单的规则，用户可以快速整理笔记、文章和研究资料，形成易于检索的维基。文章强调保持系统简单，避免过度依赖复杂工具，鼓励读者动手实践，打造自己的AI知识库。

Karpathy 发了一条推文，分享了他近期重点在用 AI 构建个人知识库，短短两天，全网千万人观看。

“我最近发现一件非常有用的事：用 LLMs 为各种研究主题建立个人知识库。这样一来，我最近的大部分 token 使用量更多地用于处理内容，而不是编写或修改代码。”

然后就在昨天，他公开了整个构建的思路：

思路很简单：不要把笔记分散在各种应用里，而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。

你也想要打造大神同款AI知识库么？

博主 Nick Spisak 打造了一套保姆级实现教程，不需要特殊软件，不需要数据库，只要文件夹和文本文件。

第一步：三个文件夹，两分钟搭好

打开终端或文件管理器，在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹：

my-knowledge-base/
raw/ (你的源材料 - 文章、笔记、截图)
wiki/ (AI 写入整理后内容的地方)
outputs/ (AI 生成的答案、报告和研究)

就这样。这就是 Karpathy 使用的结构：raw/ 文件夹是你的原始素材收纳箱，wiki/ 文件夹是 AI 帮你理出条理的地方，outputs/ 文件夹存放问题的答案。

第二步：不用整理，什么都往里扔

大多数人在这里卡住了。他们创建了文件夹，然后盯着空空如也的 raw/ 目录，不知道该放什么。

答案是：什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件，截图和图表直接保存，从你现在用的任何应用里导出笔记，会议记录、研究论文、项目文档，还有那些囤了几个月的书签，统统扔进去。

别整理、别重命名、别清理，这些活儿都是 AI 的。

我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。

但 Karpathy 没提到真正加速这个过程的部分：自动化收集。

第三步：让AI自动把网页存进来

Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具，让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装：

第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页，提取文本，直接保存到 raw/ 文件夹。

实际操作是这样的：

agent-browser open https://some-article-you-want.com
agent-browser get text "article"

就这样。AI 打开页面，抓取文章文本，你把它导入到 raw/ 里的文件。不需要手动复制粘贴，不需要浏览器扩展。

agent-browser 能处理那些复制粘贴搞不定的页面：JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文，还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。

这个工具比 Playwright MCP 省 82% 的 token，也就是说，同样一轮对话里，你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档，根本不用自己开浏览器。

用在知识库上，流程很简单：看到想要的文章，跟 AI 说一声：「把这个 URL 抓下来存到 raw/」，agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。

第四步：给AI一份说明书，让它知道怎么干

这是大多数人会跳过的部分，别跳过。

在项目根目录创建一个叫 CLAUDE.md 的文件（或 AGENTS.md 或 README.md——名字不重要，内容才重要）。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。

这是一个你现在就可以复制的起始模板：

# 知识库 Schema
## 这是什么
一个关于 [你的主题] 的个人知识库。
## 如何组织
- raw/ 包含未处理的源材料。永远不要修改这些文件。
- wiki/ 包含整理后的维基。完全由 AI 维护。
- outputs/ 包含生成的报告、答案和分析。
## 维基规则
- 每个主题在 wiki/ 中有自己的 .md 文件
- 每个维基文件以一段摘要开头
- 使用 [[topic-name]] 格式链接相关主题
- 在 wiki/ 中维护一个 INDEX.md，列出每个主题及一行描述
- 当添加新的原始源时，更新相关的维基文章
## 我的兴趣点
[列出 3-5 个你希望这个知识库关注的方向]

Karpathy 自己也说了，他的 AGENTS.md 里的 schema “超级简单，完全扁平”：没有数据库，没有插件，只是一个告诉 AI 规则的文本文件。

这个文件相当于我在每个项目中使用 CLAUDE.md 的作用：给 AI 写一份你这个知识库专用的说明书。

第五步：一条指令，AI把笔记编成维基

打开 Claude Code（或 Cursor，或任何能读取文件的 AI 编码工具），打开你的项目文件夹，然后说：

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md，然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“

然后走开，让它慢慢跑。

跑完之后你会拿到一个 wiki/ 文件夹，文章都按主题整理好了——帮你串起之前没注意到的关联，补上忘存的内容摘要，再加一份索引文件，想查什么几秒就能找到。

关键是：你不要手动编辑 Wiki，那是 AI 的工作。你只需要阅读它，对它提问，AI 负责更新和维护。

第六步：开始提问，打造活的知识库

一旦你的维基有了 10 篇以上的文章，开始提问：

“基于 wiki/ 中的所有内容，我对 【主题】 理解中最大的三个空白是什么？”
“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧？”
“仅使用这个知识库中的内容，给我写一份 500 字的 【主题】 简报。”

AI 会读取你的整个维基，根据你自己攒的材料给你答案。

把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好，正循环就转起来了。

第七步：定期检查，不让错误复利

告诉你的 AI：

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”

Karpathy 这条帖子下面，@HFloyd 的回复说到了关键：“当输出被归档回去时，错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它，下一个答案就会跟着错下去。

解决方法很简单：定期运行健康检查。

工具选择：简单胜过复杂

Karpathy 帖子下一半回复都在安利 Obsidian 插件。

但当有人问起他的设置时，Karpathy 实际上说的是：“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹和一个 schema 文件就是整个知识库。

我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code，可以用 Obsidian，可以用记事本。

AI 不在乎你用什么应用打开文件，重要的是文件夹结构和 schema。

装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。

扁平文件加一个好的 schema，90% 的场景下比花哨的工具栈管用。

写在最后：收藏和真正用起来！

这就是完整系统：三个文件夹、一个 schema 文件、一个浏览器抓取器，以及一个维护一切的 AI。

Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来，差的只是一个周末的动手时间。

选个主题，建好文件夹，把现有内容扔进去。

剩下的交给 AI，就这么简单。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】