LLM Wiki - 本地知识库管理系统

基于 Andrej Karpathy 提出的 LLM Wiki 理念,这是一个由 AI 自动维护的结构化本地 Markdown 知识库。
LLM WIKI

核心理念

让大模型在后台持续构建、维护一个结构化、相互链接的本地 Markdown 知识库,而不是在每次提问时临时去海量原始数据里翻找。

与传统 RAG 的区别

维度 传统 RAG LLM Wiki
知识处理时机 查询时(每次重新处理) 摄入时(只处理一次)
交叉引用 临时发现 预先构建并持续维护
矛盾检测 可能忽略 主动标记
知识积累 无(每次从零开始) 复利式增长
输出格式 聊天回复(转瞬即逝) 持久化的 Markdown 文件
维护者 系统黑箱 LLM(透明、可编辑)

架构设计

三层架构

┌─────────────────┐
│ Raw Sources     │ ← 人类策划,LLM 只读
│ (原始源)         │
└────────┬────────┘
         │ 摄入↓
┌─────────────────┐
│ The Wiki        │ ← LLM 生成和维护
│ (知识库)         │
└────────┬────────┘
         │ 查询↓
┌─────────────────┐
│ The Schema      │ ← 人类+LLM 共同演化
│ (配置指令)       │
└─────────────────┘

目录结构

llm-wiki/
├── AGENTS.md                    # Schema:LLM 的行为规范
├── README.md                    # 本文件:使用指南
├── raw/                         # 原始素材(人类写入,LLM 只读)
│   ├── 00-Inbox/                # 快速收集箱
│   ├── 01-Daily/                # 每日笔记
│   ├── 10-Research/             # 研究资料
│   ├── 20-Tech/                 # 技术文档
│   ├── 30-Business/             # 商业资料
│   ├── 80-Templates/            # 笔记模板
│   ├── 90-Attachments/          # 附件
│   └── 95-Archive/              # 归档区
├── wiki/                        # LLM 编译产物(LLM 读写)
│   ├── index.md                 # 全局索引
│   ├── log.md                   # 操作日志
│   ├── entities/                # 实体页
│   ├── concepts/                # 概念页
│   ├── sources/                 # 源摘要页
│   ├── comparisons/             # 对比分析页
│   └── synthesis/               # 综合分析页
└── output/                      # 成品输出
    ├── posts/                   # 博客文章
    ├── reports/                 # 研究报告
    ├── slides/                  # 演示文稿
    └── tutorials/               # 教程、指南

快速开始

第一步:添加原始文档

将你的文档(文章、论文、笔记等)放入 raw/ 目录的对应子文件夹:

  • raw/00-Inbox/ - 快速收集,稍后整理
  • raw/10-Research/ - 研究资料
  • raw/20-Tech/ - 技术文档
  • raw/30-Business/ - 商业资料

第二步:让 AI 消化文档

在对话中告诉 AI:

请消化这篇文章:[粘贴文章内容或提供文件路径]

或者:

请消化 raw/10-Research/ 目录下的所有文档

第三步:查询知识

当知识库中有内容后,你可以提问:

什么是 Transformer 架构?
飞行器可靠性有哪些主要方法?
对比一下 RAG 和 LLM Wiki 的区别

第四步:生成输出

让 AI 从 wiki 中提炼内容:

基于现有知识,写一篇关于 Transformer 的技术博客
生成一份竞品分析报告
创建一个教程

核心工作流

1. 摄入(Ingest)

当你添加新文档时,AI 会:

  1. 读取源内容
  2. 提取关键信息
  3. 创建源摘要页(wiki/sources/
  4. 创建/更新概念页(wiki/concepts/
  5. 创建/更新实体页(wiki/entities/
  6. 建立交叉引用([[双链]]
  7. 标记矛盾信息
  8. 更新索引和日志

一次摄入可能更新 10-15 个 wiki 页面。

2. 查询(Query)

当你提问时,AI 会:

  1. 先读 wiki/index.md 找相关页面
  2. 读取相关概念页和源摘要
  3. 综合回答,带引用
  4. 如果回答质量高,可存为新的综合页

3. 维护(Lint)

定期检查知识库健康:

请检查一下知识库的健康状况

AI 会:

  1. 检查矛盾(不同源是否有冲突)
  2. 检查过时(新源是否使旧声明失效)
  3. 检查孤立(是否有页面无入链)
  4. 检查缺失(是否有重要概念无独立页面)
  5. 建议新源(基于知识缺口推荐搜索方向)

使用场景

研究者:论文综述自动化

  1. 导入 100 篇 PDF 到 raw/10-Research/
  2. AI 自动生成"领域演进时间线"
  3. 矛盾结论自动标红
  4. 自动生成综述报告

学习者:书籍知识体系化

  1. 每章导入到 raw/00-Inbox/
  2. 自动生成概念页
  3. 图谱揭示逻辑链
  4. 生成学习笔记

知识工作者:竞品分析动态更新

  1. 导入会议记录和客户反馈
  2. 自动维护"竞品功能对比表"
  3. 新功能上线?AI 立即更新对比矩阵
  4. 生成分析报告

页面格式

所有 wiki 页面都包含:

  • YAML Frontmatter:标题、描述、标签、分类、时间戳
  • 双链语法[[页面名]] 实现交叉引用
  • 结构化内容:概述、要点、详细内容、相关概念
  • 来源追溯:每个声明都可以追溯到原始来源

标签体系

领域标签

研究 技术 商业 学习 理论 实践

状态标签

待完善 待验证 核心 边缘

类型标签

人物 机构 工具 方法 事件

推荐工具

Obsidian(强烈推荐)

  • 纯本地存储,所有数据都是 .md 文件
  • 原生支持 [[双链]] 语法
  • 图谱视图可视化知识结构
  • 插件生态(Dataview、Web Clipper 等)

配置方法:

  1. 下载并安装 Obsidian
  2. 选择 f:\llm-wiki 作为 Vault
  3. 启用 Daily notes 插件
  4. 安装 Dataview 插件(可选)

VS Code

  • 安装 Markdown 插件
  • 安装 Markdown Preview Enhanced
  • 使用搜索功能查找页面

最佳实践

  1. 保持 raw/ 的整洁:定期整理收集箱,归档旧文件
  2. 定期查询:通过提问发现知识缺口
  3. 定期维护:每周让 AI 检查知识库健康
  4. 善用输出:将 wiki 内容转化为文章、报告、教程
  5. 版本控制:使用 Git 管理知识库版本(可选)

高级技巧

批量摄入

请批量消化 raw/20-Tech/ 目录下的所有文档

主题综合

基于现有知识,综合一下关于"机器学习"的所有内容

知识缺口分析

分析一下当前知识库的缺口,建议我应该摄入哪些方面的资料?

生成特定格式输出

基于 wiki 中关于 Docker 的内容,生成一份教程

注意事项

  1. 永远不要手动修改 wiki/ 目录的文件(除非你要纠正 AI 的错误)
  2. raw/ 是你的领地,AI 绝不修改
  3. 保持文档质量:输入垃圾,输出也是垃圾
  4. 定期备份:虽然都是本地文件,但建议定期备份
  5. 耐心:知识库需要时间积累,不要期望一次摄入就完美

扩展阅读

许可

本项目采用本地知识库管理理念,可自由使用和修改。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐