本文介绍了如何利用大型语言模型(LLMs)构建个人知识库,步骤包括创建文件夹结构、收集资料、编写AI说明书等。通过自动化工具和简单的规则,用户可以快速整理笔记、文章和研究资料,形成易于检索的维基。文章强调保持系统简单,避免过度依赖复杂工具,鼓励读者动手实践,打造自己的AI知识库。

Karpathy 发了一条推文,分享了他近期重点在用 AI 构建个人知识库,短短两天,全网千万人观看。

“我最近发现一件非常有用的事:用 LLMs 为各种研究主题建立个人知识库。这样一来,我最近的大部分 token 使用量更多地用于处理内容,而不是编写或修改代码。”

然后就在昨天,他公开了整个构建的思路:

思路很简单:不要把笔记分散在各种应用里,而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。

你也想要打造大神同款AI知识库么?

博主 Nick Spisak 打造了一套保姆级实现教程,不需要特殊软件,不需要数据库,只要文件夹和文本文件。

第一步:三个文件夹,两分钟搭好

打开终端或文件管理器,在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹:

my-knowledge-base/
raw/ (你的源材料 - 文章、笔记、截图)
wiki/ (AI 写入整理后内容的地方)
outputs/ (AI 生成的答案、报告和研究)

就这样。这就是 Karpathy 使用的结构:raw/ 文件夹是你的原始素材收纳箱,wiki/ 文件夹是 AI 帮你理出条理的地方,outputs/ 文件夹存放问题的答案。

第二步:不用整理,什么都往里扔

大多数人在这里卡住了。他们创建了文件夹,然后盯着空空如也的 raw/ 目录,不知道该放什么。

答案是:什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件,截图和图表直接保存,从你现在用的任何应用里导出笔记,会议记录、研究论文、项目文档,还有那些囤了几个月的书签,统统扔进去。

别整理、别重命名、别清理,这些活儿都是 AI 的。

我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。

但 Karpathy 没提到真正加速这个过程的部分:自动化收集。

第三步:让AI自动把网页存进来

Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具,让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装:

第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页,提取文本,直接保存到 raw/ 文件夹。

实际操作是这样的:

agent-browser open https://some-article-you-want.com
agent-browser get text "article"

就这样。AI 打开页面,抓取文章文本,你把它导入到 raw/ 里的文件。不需要手动复制粘贴,不需要浏览器扩展。

agent-browser 能处理那些复制粘贴搞不定的页面:JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文,还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。

这个工具比 Playwright MCP 省 82% 的 token,也就是说,同样一轮对话里,你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档,根本不用自己开浏览器。

用在知识库上,流程很简单:看到想要的文章,跟 AI 说一声:「把这个 URL 抓下来存到 raw/」,agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。

第四步:给AI一份说明书,让它知道怎么干

这是大多数人会跳过的部分,别跳过。

在项目根目录创建一个叫 CLAUDE.md 的文件(或 AGENTS.md 或 README.md——名字不重要,内容才重要)。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。

这是一个你现在就可以复制的起始模板:

# 知识库 Schema
## 这是什么
一个关于 [你的主题] 的个人知识库。
## 如何组织
- raw/ 包含未处理的源材料。永远不要修改这些文件。
- wiki/ 包含整理后的维基。完全由 AI 维护。
- outputs/ 包含生成的报告、答案和分析。
## 维基规则
- 每个主题在 wiki/ 中有自己的 .md 文件
- 每个维基文件以一段摘要开头
- 使用 [[topic-name]] 格式链接相关主题
- 在 wiki/ 中维护一个 INDEX.md,列出每个主题及一行描述
- 当添加新的原始源时,更新相关的维基文章
## 我的兴趣点
[列出 3-5 个你希望这个知识库关注的方向]

Karpathy 自己也说了,他的 AGENTS.md 里的 schema “超级简单,完全扁平”:没有数据库,没有插件,只是一个告诉 AI 规则的文本文件。

这个文件相当于我在每个项目中使用 CLAUDE.md 的作用:给 AI 写一份你这个知识库专用的说明书。

第五步:一条指令,AI把笔记编成维基

打开 Claude Code(或 Cursor,或任何能读取文件的 AI 编码工具),打开你的项目文件夹,然后说:

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“

然后走开,让它慢慢跑。

跑完之后你会拿到一个 wiki/ 文件夹,文章都按主题整理好了——帮你串起之前没注意到的关联,补上忘存的内容摘要,再加一份索引文件,想查什么几秒就能找到。

关键是:你不要手动编辑 Wiki,那是 AI 的工作。你只需要阅读它,对它提问,AI 负责更新和维护。

第六步:开始提问,打造活的知识库

一旦你的维基有了 10 篇以上的文章,开始提问:

“基于 wiki/ 中的所有内容,我对 【主题】 理解中最大的三个空白是什么?”
“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧?”
“仅使用这个知识库中的内容,给我写一份 500 字的 【主题】 简报。”

AI 会读取你的整个维基,根据你自己攒的材料给你答案。

把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好,正循环就转起来了。

第七步:定期检查,不让错误复利

告诉你的 AI:

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”

Karpathy 这条帖子下面,@HFloyd 的回复说到了关键:“当输出被归档回去时,错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它,下一个答案就会跟着错下去。

解决方法很简单:定期运行健康检查。

工具选择:简单胜过复杂

Karpathy 帖子下一半回复都在安利 Obsidian 插件。

但当有人问起他的设置时,Karpathy 实际上说的是:“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹和一个 schema 文件就是整个知识库。

我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code,可以用 Obsidian,可以用记事本。

AI 不在乎你用什么应用打开文件,重要的是文件夹结构和 schema。

装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。

扁平文件加一个好的 schema,90% 的场景下比花哨的工具栈管用。

写在最后:收藏和真正用起来!

这就是完整系统:三个文件夹、一个 schema 文件、一个浏览器抓取器,以及一个维护一切的 AI。

Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来,差的只是一个周末的动手时间。

选个主题,建好文件夹,把现有内容扔进去。

剩下的交给 AI,就这么简单。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐