目录

一、文章概述与核心定位

二、传统RAG的困境与LLM Wiki的突破

2.1 传统RAG的工作模式

2.2 LLM Wiki的核心创新

三、三层架构的深层解读

3.1 Raw Sources层:不可变的信任之源

3.2 Wiki层:LLM的全权领地

3.3 Schema层:秩序的蓝图

四、三个核心操作的深度剖析

4.1 Ingest操作:知识的消化与整合

4.2 Query操作:知识的激活与产出

4.3 Lint操作:知识的健康维护

五、Index与Log的设计智慧

5.1 index.md:知识导航图

5.2 log.md:知识演化的时光机

六、为什么这种方法有效

6.1 人机分工的最优化

6.2 知识积累的复利效应

6.3 愿景回归:Vannevar Bush的Memex

七、局限性与适用边界

7.1 规模化挑战

7.2 Schema设计的挑战

7.3 知识正确性的保障

八、核心要点总结


原文https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

发布时间:2026.04

关键摘要:别用 RAG 每次查询时让 LLM 重新挖文档,让 LLM 帮你持续维护一份 markdown wiki——把知识从"检索"变成"持续编译",人类做不下去的 wiki 维护,LLM 把成本干到接近零。

  • 三层结构:原始资料(只读) + LLM 维护的 wiki(可写) + schema 文档(规则)
  • 核心反 RAG:知识不"存"在 LLM 里,也不"取"自原始资料,而是被编译到 wiki 里、跨引用、持续更新
  • 为什么以前搞不成:知识库死于维护负担,LLM 不嫌烦也不会忘,所以这事现在能跑通。

一、文章概述与核心定位

这篇来自Andrej Karpathy的文章发表于2026年4月,提出了一种构建个人知识库的新范式。Karpathy作为深度学习领域的权威,其观点往往代表着对AI应用本质的深刻洞察。文章标题虽然简洁为"LLM Wiki",但实际上描述的是一种系统性的知识管理哲学,而非简单的技术实现。

文章的核心主张是:传统RAG系统让LLM在每个问题面前都要重新从零发现知识,没有积累;而LLM Wiki则让LLM增量构建并维护一个持久的、结构化的、互联的Markdown文件集合,知识被编译一次然后保持最新,而不是每次查询时重新推导。这一主张直击当前主流RAG系统的核心痛点——信息碎片化、知识孤岛化、维护成本高企。

二、传统RAG的困境与LLM Wiki的突破

2.1 传统RAG的工作模式

在深入理解LLM Wiki之前,需要先厘清传统RAG系统的问题所在。大多数人对LLM和文档的交互体验是这样的:上传一批文件,LLM在查询时检索相关片段,然后生成回答。这种方式虽然有效,但存在根本性的效率损耗。LLM在每个问题面前都要重新发现知识,询问一个需要综合五份文档的微妙问题,LLM每次都必须找到并拼凑相关片段。没有什么是积累起来的,所有东西都是临时构建。

NotebookLM、ChatGPT文件上传、以及大多数RAG系统都是这种模式。它们解决的是信息检索问题,但没有解决知识组织问题。用户的痛点不是找不到信息,而是找到的信息无法有效沉淀、更新和维护。一个使用RAG系统的用户可能会在多次对话中反复问类似的问题,每次LLM都需要重新检索、重新理解、重新生成相似的回答,效率极低。

2.2 LLM Wiki的核心创新

LLM Wiki的核心理念是革命性的转变:LLM不只是索引文档以供后续检索,而是增量构建并维护一个持久的Wiki。当用户添加新来源时,LLM不会只索引它,而是阅读它、提取关键信息、将其整合到现有Wiki中——更新实体页面、修订主题摘要、标注新数据与旧声明矛盾的地方、加强或挑战不断演变的综合判断。知识被编译一次然后保持最新,而不是每次查询时重新推导。

这个模式的关键在于Wiki是一个持久的、复合的产物。交叉引用已经在那里,矛盾已经被标记,综合已经反映了用户所读的一切。每次添加源和每次提问,Wiki都会变得更加丰富。用户从不(或很少)自己写Wiki——LLM编写和维护所有内容,用户负责来源 curation、探索和提出正确的问题。LLM做所有苦差事——总结、交叉引用、归档和记账,这些工作使知识库随时间推移真正有用。

三、三层架构的深层解读

3.1 Raw Sources层:不可变的信任之源

Raw Sources层是用户策划的源文档集合——文章、论文、图片、数据文件。这些文件是不可变的,LLM阅读它们但从不修改它们。这是用户的真理来源。

这层设计体现了一个重要的工程原则:原始数据的权威性不可动摇。在传统系统中,常常出现源数据被直接修改或覆盖的情况,导致知识溯源困难。而LLM Wiki通过将源数据锁定为不可变对象,确保了整个知识体系的可追溯性。当用户需要对某个知识点进行核实时,始终可以回到原始来源进行验证。

3.2 Wiki层:LLM的全权领地

Wiki是一个由LLM生成的Markdown文件目录——摘要、实体页面、概念页面、比较、概述、综合。LLM完全拥有这一层,创建页面、在新源到达时更新它们、维护交叉引用、保持一切一致。用户阅读它;LLM编写它。

这一层的划分的深刻意义在于:它将知识生产与知识消费明确分离。LLM作为知识生产者,负责知识的组织、关联和维护;用户作为知识消费者,直接消费这些组织好的知识。这种分工解决了人类在维护知识库时的最大痛点——维护负担增长快于价值增长。LLM不会感到厌烦,不会忘记更新交叉引用,可以一次触及15个文件。维护成本接近于零,Wiki因此得以保持维护。

3.3 Schema层:秩序的蓝图

Schema是一个文档(例如用于Claude Code的CLAUDE.md或用于Codex的AGENTS.md),告诉LLM Wiki是如何组织的、约定是什么、以及在摄取源、回答问题或维护Wiki时遵循什么工作流。这是关键配置文件——它使LLM成为一个有纪律的Wiki维护者,而不是一个通用聊天机器人。用户和LLM随着对领域和偏好的理解,共同演进这个文档。

Schema层是整个系统的元认知层,它定义了Wiki的组织原则和操作规程。没有Schema,系统就是一个杂乱无章的知识仓库;有了Schema,系统就变成了一个遵循明确规则的知识管理体系。Schema的共同演进特性也很关键——它不是一次性设计好的静态文档,而是在用户与LLM的持续交互中不断优化和完善的动态规范。

四、三个核心操作的深度剖析

4.1 Ingest操作:知识的消化与整合

Ingest是用户将新源放入原始集合并告诉LLM处理它的过程。一个典型的流程是:LLM阅读源、与用户讨论关键要点、在Wiki中写一个摘要页面、更新索引、更新Wiki中相关的实体和概念页面、并在日志中附加一个条目。一个源可能涉及10-15个Wiki页面。

Ingest操作的核心挑战是如何将新知识有效整合到现有知识体系中。新知识不是简单地被添加,而是要与旧知识进行比对、关联、可能还要解决冲突。如果新数据与旧声明矛盾,这些矛盾必须被标记;如果新知识强化了某个现有观点,这也需要被记录。这种增量整合确保了Wiki不是信息的简单堆砌,而是有机的知识网络。

4.2 Query操作:知识的激活与产出

Query是用户针对Wiki提问的过程。LLM搜索相关页面、阅读它们、并用引用综合出答案。根据问题类型,答案可以有不同的形式——Markdown页面、比较表格、幻灯片(使用Marp)、图表(使用matplotlib)、画布。重要的洞察是:好的答案应该被归档回Wiki作为新页面。你要求的比较、你想做的分析、你发现的联系——这些都是有价值的,不应该消失在聊天历史中。这样,你的探索在知识库中与摄入的源一样复合。

Query操作超越了简单的问答,它将用户的问题和发现也视为知识的来源。当用户提出一个比较问题时,这个比较本身就构成了有价值的知识,应该被保留到Wiki中。这种设计体现了Karpathy对知识流动的深刻理解——知识不应该单向流动(从源到用户),而应该形成一个循环,用户的问题和发现也在为知识库做贡献。

4.3 Lint操作:知识的健康维护

Lint是定期让LLM对Wiki进行健康检查的过程。需要关注的问题包括:页面间的矛盾、新源已经取代的过时声明、没有入站链接的孤立页面、被提及但缺乏自己页面的重要概念、缺失的交叉引用、以及可以通过网络搜索填补的数据空白。LLM擅长建议新的要调查的问题和新的要寻找的源。这使Wiki在增长过程中保持健康。

Lint操作解决了知识库维护中的人类惰性问题。随着时间推移,任何知识库都会积累过时信息、孤立页面、不一致的表述。传统上,这些问题需要人类投入大量时间进行维护检查,但人类往往缺乏这种持续投入的耐心和精力。LLM作为Lint的执行者,可以持续监控系统健康状态,及时发现并修复问题,确保Wiki始终保持高质量。

五、Index与Log的设计智慧

5.1 index.md:知识导航图

index.md是面向内容的,它是Wiki中一切内容的目录——每个列出的页面都有链接、一行摘要、以及可选的元数据如日期或源数量。按类别组织(实体、概念、来源等)。LLM在每次摄入时更新它。在回答查询时,LLM首先阅读索引以找到相关页面,然后深入阅读它们。这个方法在小规模到中等规模(约100个源、数百个页面)上出奇地有效,避免了对基于embedding的RAG基础设施的需求。

index.md的设计展示了对知识可发现性的深刻理解。当Wiki规模达到数百个页面时,如何快速定位相关内容成为一个关键问题。基于embedding的语义检索虽然强大,但引入了额外的系统复杂度和资源消耗。index.md通过提供结构化的目录导航,在不需要复杂基础设施的情况下实现了有效的知识发现。这种设计选择体现了Karpathy一贯的工程美学——用最简单的方案解决核心问题。

5.2 log.md:知识演化的时光机

log.md是时间导向的,它是一个append-only的事件记录——摄入、查询、lint通过。每次都有时间戳。一个有用的技巧:如果每个条目以一致的前缀开始(例如## [2026-04-02] ingest | Article Title),日志就变成了可以用简单unix工具解析的文件——grep "^## \[" log.md | tail -5给你最后5个条目。日志给你Wiki演化的快照时间线,帮助LLM理解最近做了什么。

log.md的设计解决了一个容易被忽视但至关重要的问题:知识的时效性管理。在知识库中,知道什么是最新的、什么已经被探索过、什么还需要进一步调查,这些信息对于系统的高效运作至关重要。log.md通过时间轴的形式记录了Wiki的所有演化历程,使得用户和LLM都可以清晰地了解知识库的状态和历史。这种设计也为未来的知识追溯和问题诊断提供了基础。

六、为什么这种方法有效

6.1 人机分工的最优化

Karpathy在文章中点出了这种方法有效的核心原因:维护知识库中最繁琐的部分不是阅读或思考,而是记账——更新交叉引用、保持摘要最新、标注新数据与旧声明矛盾的地方、维持数十个页面之间的一致性。人类放弃Wiki是因为维护负担增长快于价值增长。LLM不会感到厌烦,不会忘记更新交叉引用,可以一次触及15个文件。维护成本接近于零,Wiki因此得以保持维护。

这个洞察直击传统知识管理系统的核心矛盾:人类的注意力是有限的,而知识库需要持续维护才能保持价值。传统方法试图让人类承担维护责任,但人类缺乏持续投入的耐心和精力;LLM Wiki通过让LLM承担维护责任,解放了人类的认知资源,使其专注于真正需要人类智慧的领域——策展来源、引导分析、提出好问题、思考这一切意味着什么。

6.2 知识积累的复利效应

LLM Wiki实现了知识积累的复利效应。在传统RAG系统中,每次查询都是独立的,知识不能有效积累;每次解答类似的细微问题,LLM都必须重新找到并拼凑相关片段。在LLM Wiki中,交叉引用已经在那里,矛盾已经被标记,综合已经反映了用户所读的一切。随着源和问题的增加,Wiki变得越来越丰富,其价值呈指数增长。

这种复利效应体现在多个层面:实体页面的累积使得新源的处理越来越高效,因为大量实体已经被定义和关联;概念页面的累积使得综合分析越来越深入,因为已经有了丰富的背景知识;历史查询和答案的累积使得FAQ可以直接引用,节省了重复解答的成本。整个Wiki变成了一个活的有机知识体,随着使用时间的增长而不断进化和增值。

6.3 愿景回归:Vannevar Bush的Memex

Karpathy在文章中提到了Vannevar Bush1945年提出的Memex概念——一种具有文档间关联路径的个人、策划知识库。布什的愿景比网络最终成为的样子更接近这个概念:私人的、积极策划的,文档之间的连接与文档本身一样有价值。布什无法解决的部分是谁来做维护。LLM现在处理这个问题。

这个历史回溯揭示了人类对知识管理追求的长期性。从Bush的Memex到今天的LLM Wiki,人类始终在追求一种能够有效组织、关联和维护知识的工具。不同的是,Bush时代的瓶颈是人的时间和精力,而LLM Wiki时代的瓶颈已经转移到了如何正确地向LLM描述需求、如何设计有效的Schema、如何协调人与AI的工作分工。

七、局限性与适用边界

7.1 规模化挑战

LLM Wiki在中等规模(~100个源、数百个页面)下表现良好,但当规模进一步扩大时,可能面临性能瓶颈。index.md作为导航手段在超大规模下可能变得臃肿,基于embedding的RAG基础设施此时成为必要。文章也提到了qmd这样的工具作为解决方案,但引入这类工具会增加系统复杂度。

7.2 Schema设计的挑战

LLM Wiki的有效性高度依赖于Schema的质量。一个好的Schema需要准确描述Wiki的组织原则、操作规程和领域约定,这需要对具体领域的深入理解和与LLM的反复磨合。对于不熟悉知识管理原则的用户,设计有效的Schema可能需要较长的试错周期。

7.3 知识正确性的保障

LLM Wiki假设LLM能够准确地提取、整合和维护知识,但LLM可能产生幻觉或误解。在关键应用场景下,用户仍需要具备一定的知识判断能力来识别和纠正LLM的错误。完全依赖LLM进行知识管理可能在某些高风险领域(如医疗、法律、金融)存在合规性风险。

八、核心要点总结

维度 传统RAG LLM Wiki
知识积累 每次查询独立,无积累 持久存储,持续增值
知识组织 被动检索,无主动关联 主动整合,交叉引用
维护负担 随规模增长,人类难以承受 LLM承担,接近零成本
知识产出 一次性答案,用完即弃 有价值的产出归档回Wiki
人机分工 人类做所有组织工作 LLM负责记账,人类专注思考
核心价值 检索效率 知识复利

一句话总结:LLM Wiki通过让LLM承担知识库的维护工作,解放了人类的认知资源,使知识积累从每次查询的独立消耗变为持续的复利增长,这是对Vaneva Bush 1945年Memex愿景的现代化实现。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐