通过 LLM-Wiki 搭建个人知识库 | 数字化与人工智能课程

S1: 当收藏变成遗忘

信息过载的时代，我们需要的不只是存储，而是一种让知识持续生长的方式。LLM-Wiki 正是为此而生的一套方法论。

知识的困境

我们每天都在收藏文章、下载资料，可真正留在脑子里的却越来越少。资料越堆越高，知识却没有积累——这是几乎所有现代人都面临的困境。

信息过载：每天涌入的内容远超大脑处理能力。
检索割裂：传统搜索只能找回片段，看不到关联。
缺乏沉淀：每次提问都从零开始，不复用过往。

什么是 LLM-Wiki

LLM-Wiki = LLM + Wiki。它借助大语言模型，把零散原始资料自动整理成结构化、可检索的知识库，让"数据库"升级为真正的"知识库"。

从存储到理解：不只保存资料，更读懂资料。
从原料到结构：自动生成摘要、实体与关联。
是一套框架方法论，而非某项新技术。

S2: 核心思想：把 LLM 当作编译器

LLM-Wiki 的精髓在于"编译"二字——让大模型像编译器一样，把原始资料加工成可复用的知识资产。

核心理念：LLM 即编译器

把 LLM 当作一台"知识编译器"：它读取原始资料，理解、生成、结构化，最终把零散信息编译成可复用的知识网络。

增量编译：资料越多，知识越完整。
规则约束：用 Schema 把控产出质量。
让信息从"散落"变为"可用"。

方法论提出者：Karpathy

Andrej Karpathy，深度学习领域最具影响力的实践者之一，也是 LLM-Wiki 思想的核心来源。

OpenAI 创始团队成员。
前 Tesla AI 总监，主导 Autopilot 自动驾驶。
Stanford CS231n 深度学习课程创立者。
活跃的开源与科普作者。

S3: 三层架构：资料 · 知识 · 规则

LLM-Wiki 的骨架由三层构成，各司其职、形成闭环。理解这三层，就理解了整个体系的运作逻辑。

三层架构总览

整个体系由三层构成，数据自下而上流动，规则自上而下约束，形成一个自我进化的闭环。

Raw 层　原始资料（只读）
Wiki 层　知识库（LLM 维护）
Schema 层　规则（共同维护）

Raw 层：原始资料的基石

知识库的地基。所有原始素材汇入此处，作为整个体系的输入源——越丰富，上层知识越可靠。

来源：文章、论文、笔记、图片、网页、PDF。
用户自主添加，持续扩充。
只读保护区：LLM 只读不写，保证源可信。

Wiki 层：知识的中枢

LLM 在此生成网络化的知识内容，把原始资料加工成可检索、可复用的结构。

摘要：提炼核心要点。
实体：人物、机构、项目。
概念：抽象定义与相互关系。
分析：对比、归纳、推理。

Schema 层：规则的骨架

定义知识库"长什么样"的规则层，是整个体系的骨架和目录，约束 LLM 的产出格式。

定义目录结构与命名规范。
约定生成流程与质量标准。
由 LLM 与用户共同维护。

S4: 三个动作：摄入 · 问答 · 体检

架构搭好后，日常使用围绕三个动作展开，覆盖知识库的输入、输出与维护全生命周期。

核心操作总览

日常使用围绕三个动作展开，分别对应知识库的输入、输出和维护，构成完整闭环。

Ingest 摄入（输入）：资料 → 知识。
Query 问答（输出）：提问 → 答案。
Lint 体检（维护）：检查 → 优化。

Ingest 摄入

把资料"喂"进知识库的过程。每添加一份原始文件，LLM 就读取、提取、更新一次 Wiki 层。

添加文件到 raw 目录即触发。
LLM 自动提取要点并建立关联。
每次摄入都是一次知识迭代。

Query 问答

直接在知识库上提问。LLM 基于已结构化的知识作答，无需向量数据库、无需 RAG。

提问 → LLM 索引 Wiki 层 → 综合回答。
高质量问答可反哺知识库积累。
回答有据可查，可追溯来源。

Lint 体检

定期给知识库做"健康检查"。LLM 遍历全库，发现并修复问题，输出体检报告。

查找孤立、冲突、过期的内容。
通过健康度指标（HScore）量化评估。
根据反馈同步优化 Schema 规则。

S5: 为什么它不需要 RAG

传统 RAG 靠向量检索，LLM-Wiki 靠结构化加载。两种思路，带来准确度与可控性的根本差异。

不用 RAG 的原理

传统 RAG 先检索再生成，可能丢失上下文；LLM-Wiki 直接全量加载知识库，准确度与可控性更高。

传统 RAG：检索 → 注入 → 生成（易失真）。
LLM-Wiki：全量加载 → 直接生成（更准确）。
关键在 index.md 与 log.md。

index.md：知识库的门面

整个知识库的导航枢纽。每个 Wiki 页面占一行，LLM 回答问题前先读取它来定位。

展示全库的知识结构。
通过索引快速跳转定位。
是问答检索的入口文件。

log.md：操作的黑匣子

按时间顺序记录每次摄入、查询、体检的操作，让知识库的变更历史可回溯。

记录每次 Ingest / Query / Lint。
出现问题可快速定位回溯。
是知识库的"黑匣子"。

S6: 与传统 RAG 的根本差异

从知识状态到可维护性，LLM-Wiki 在每个维度都展现出不同的哲学。

四个维度的对比

从知识状态、关联构建、累积效应到可维护性，LLM-Wiki 都展现出"编译型"的优势。

知识状态：编译型 vs 解释型。
关联性：网络链接 vs 即时检索。
累积效应：迭代更新 vs 无积累。
可维护性：白盒可追溯 vs 黑盒不可控。

人机分工的智慧

关键在于分工：把枯燥的整理维护交给 AI，人专注于提供资料与高质量提问。

AI 主导：提炼摘要、更新引用、保持一致、检查归档。
用户主导：收集资料、引导方向、高质量问答、自我提升。

S7: 从理论到落地：工具栈

理念讲完，接下来是实操。四组工具，覆盖从资料收集到本地运行、桌面应用到私有云同步的完整链路。

Obsidian + Web Clipper

Obsidian 是本地优先的 Markdown 笔记软件，承载整个知识库；Web Clipper 是浏览器插件，一键把网页剪藏为 Markdown，汇入 Raw 层。

本地存储，数据完全自主可控。
网页 → 笔记的无缝衔接。
双链笔记，天然适合知识网络。

Node.js + OpenCode

Node.js 提供 JavaScript 运行环境；OpenCode 是开源终端编程智能体，承担 LLM-Wiki 中"读取、提取、增量更新"的执行角色。

为 LLM-Wiki 提供本地运行底座。
无需云端依赖，全流程本地完成。
开源免费，可自由定制。

LLM-Wiki 桌面端

把命令行方案封装为图形化桌面应用，让不熟悉终端的用户也能一键完成摄入、问答与体检。

一键启动，无需命令行配置。
本地优先，数据存储在本地。
大幅降低上手门槛。

Qoder · Ollama · FNS

三件套组成本地 LLM 工作流闭环，适配从日常使用到保密场景的不同需求。

Qoder：智能体执行软件，自带知识库，有免费额度。
Ollama：本地大模型引擎，纯内网，适合保密信息。
Fast-Note-Sync：搭配 VPS 与域名，跨设备私有云同步。

S8: 边界、适用与升华

再好的方法也有边界。知道它适合什么、不适合什么，才能真正用好它。

限制与适用场景

LLM-Wiki 依赖高质量、相对稳定的原始资料，因此更适合专题研究而非日常碎记。

✓ 适合：论文、规范、书籍、审查意见等专题资料。
✗ 不适合：碎片化笔记、多方向日记、频繁变动数据。
核心判断：能否形成互相关联的知识网络。

「道」与「术」

道是客观存在的规律与法则，术是实际实践的方法与技巧。学技术，更要有学习 AI 的心态。

年初 AI 专班张峥院长分享的见解。
个人知识库是定制化、不受限、可发散的。
想买都买不到，却能随时迁移与扩展。

致谢

感谢 Karpathy 的启发，感谢开源社区与工具开发者，感谢各位的聆听。

谢谢聆听

也感谢专班组长杜明的鼓励，以及自己学习 AI 的初心。

通过 LLM-Wiki搭建个人知识库