通过 LLM-Wiki 搭建个人知识库 | 数字化与人工智能课程

S1: 当收藏变成遗忘

信息过载的时代，我们需要的不只是存储，而是一种让知识持续生长的方式。LLM-Wiki 正是为此而生的一套方法论。

知识的困境

我们每天都在收藏文章、下载资料，可真正留在脑子里的却越来越少。资料越堆越高，知识却没有积累——这是几乎所有现代人都面临的困境。

信息过载：每天涌入的内容远超大脑处理能力。
检索割裂：传统搜索只能找回片段，看不到关联。
缺乏沉淀：每次提问都从零开始，不复用过往。

什么是 LLM-Wiki

LLM-Wiki = LLM + Wiki。它借助大语言模型，把零散原始资料自动整理成结构化、可检索的知识库，让"数据库"升级为真正的"知识库"。

从存储到理解：不只保存资料，更读懂资料。
从原料到结构：自动生成摘要、实体与关联。
是一套框架方法论，并不是新的模型或者技术。

S2: 核心思想：把 LLM 当作编译器

LLM-Wiki 的精髓在于"编译"二字——让大模型像编译器一样，把原始资料加工成可复用的知识资产。

核心理念：LLM 即编译器

把 LLM 当作一台"知识编译器"：它读取原始资料，理解、生成、结构化，最终把零散信息编译成可复用的知识网络。

增量编译：资料越多，知识越完整。
规则约束：用 Schema 把控产出质量。
让信息从"散落的碎片"变为"关联的图谱"。

方法论提出者：Karpathy

Andrej Karpathy，深度学习领域最具影响力的实践者之一，也是 LLM-Wiki 思想的核心来源。

OpenAI 创始团队成员。
前 Tesla AI 总监，主导 Autopilot 自动驾驶。
Stanford CS231n 深度学习课程创立者。
活跃的开源与科普作者。

S3: 三层架构：资料 · 知识 · 规则

LLM-Wiki 的骨架由三层构成，各司其职、形成闭环。理解这三层，就理解了整个体系的运作逻辑。

三层架构总览

整个体系由三层构成，数据自上而下流动，规则自下而上约束，形成一个自我进化的闭环。

Raw 层　原始资料（只读不写）
Wiki 层　知识库（LLM 维护）
Schema 层　规则（共同维护）

Raw 层：原始资料的基石

知识库的地基。所有原始素材汇入此处，作为整个体系的输入源——越丰富，上层知识越可靠。

来源：文章、论文、笔记、图片、网页、PDF。
用户自主添加，持续扩充。
LLM只读不写，根源牢固。

Wiki 层：知识的中枢

LLM 在此生成网络化的知识内容，把原始资料加工成可检索、可复用的结构。

摘要：提炼核心要点。
实体：人物、机构、项目。
概念：抽象定义与相互关系。
分析：对比、归纳、推理。

Schema 层：规则的骨架

定义知识库"长啥样"的规则层，是整个体系的骨架和目录，约束 LLM 的产出格式。

定义目录结构与命名规范。
约定生成流程与质量标准。
由 LLM 与用户共同维护。

S4: 三个动作：摄入 · 问答 · 体检

架构搭好后，日常使用围绕三个动作展开，覆盖知识库的输入、输出与维护全生命周期。

核心操作总览

日常使用围绕三个动作展开，分别对应知识库的输入、输出和维护，构成完整闭环。

Ingest 摄入（输入）：资料 → 知识。
Query 问答（输出）：提问 → 答案。
Lint 体检（维护）：检查 → 优化。

Ingest 摄入

把资料"喂"进知识库的过程。每添加一份原始文件，LLM 就读取、提取、更新一次 Wiki 层。

添加文件到 raw 目录进行编译。
LLM 自动提取要点并构建Wiki。
每一次摄入都是一次知识迭代。

Query 问答

用户进行提问后，LLM会在wiki层进行索引查询，深入阅读后返回综合回答，质量高的问答可以用于wiki的积累。

提问 → LLM 索引 Wiki 层 → 综合回答。
高质量问答还可以反哺知识库的积累。
回答有据可查，可快速追溯资料来源。

Lint 体检

定期给知识库做"健康检查"。LLM 遍历全库，发现并修复问题，输出体检报告。

查找孤立、冲突、过期的编译内容。
通过健康度指标对知识库量化评估。
根据反馈结果来优化 Schema 规则。

S5: 为什么它不需要 RAG

传统 RAG 依赖向量空间进行检索，LLM-Wiki 则是加载结构化索引。

不用 RAG 的原理

传统 RAG 先检索再生成，可能丢失上下文；LLM-Wiki 直接全量加载知识库，准确度与可控性相对更高。

传统 RAG：检索 → 注入 → 生成（易失真）。
LLM-Wiki：全量加载 → 直接生成（更准确）。
关键在 index（内容索引）与 log（运行日志）。

index.md：知识库的门面

知识库的导航枢纽。每个 Wiki 页面占一行，LLM 回答问题前先读取它来定位。

展示全量库的知识结构。
通过加载索引快速定位。
是问答检索的入口文件。

log.md：操作的黑匣子

按时间顺序记录每次摄入、查询、体检的操作，让知识库的变更历史可回溯。

记录每次 Ingest / Query / Lint。
出现问题可快速定位回溯。
是知识库的"飞机黑匣子"。

S6: 与传统 RAG 的分析对比

从知识状态到可维护性，LLM-Wiki 在每个维度都展现出不同的思路。

四个维度的对比

从知识状态、关联构建、累积效应到可维护性，LLM-Wiki 都展现出"编译型"的优势。

知识状态：编译型 vs 解释型。
关联性：网络链接 vs 即时检索。
累积效应：迭代更新 vs 无法积累。
可维护性：白盒可追溯 vs 黑盒不可控。

AI与人的分工协作

把枯燥的整理维护交给 AI，用户专注于提供资料与高质量提问。

AI 主导：提炼摘要、更新引用、保持一致、检查归档。
用户主导：收集资料、引导方向、优质问答、自我提升。
互相协作：各司其职，优势互补，知识共建，持续积累。

S7: 从理论到落地：工具栈

理念讲完，接下来是实操。四组工具，覆盖从资料收集到本地运行、桌面应用到私有云同步的完整链路。

Obsidian + Web Clipper

Obsidian 是本地优先的 Markdown 笔记软件，承载整个知识库；Web Clipper 是浏览器插件，一键把网页剪藏为 Markdown，汇入 Raw 层。

本地存储，数据完全自主可控。
网页 → 笔记，高效快速的提取。
关系图谱，天然适配知识网络。

Node.js + OpenCode

Node.js 提供 JavaScript 运行环境；OpenCode 是开源智能体并提供免费模型，承担 LLM-Wiki 知识库的执行角色。

为 LLM-Wiki 提供运行环境。
开源的项目，支持自由定制
免费的模型，适合基础体验。

LLM-Wiki 桌面端

把命令行方案封装为图形化桌面应用，让不熟悉终端的用户也能快速完成摄入、问答与体检。

桌面客户端，无需命令行操作。
自动化运行，更为友好的交互。
缺点则是没有免费的LLM模型。

Qoder · Ollama · FNS

三件套组成本地 LLM 工作流闭环，适配从日常使用到保密场景的不同需求。

Qoder：智能体执行软件，自带知识库，有免费额度。
Ollama：本地大模型引擎，内网环境，适合保密信息。
Fast-Note-Sync：跨设备私有云同步，Web端管理编辑。

S8: 总结、分享与致谢

再好的方法也有边界。知道它适合什么、不适合什么，才能真正用好它。

限制与适用场景

LLM-Wiki 依赖高质量、相对稳定的资料，因此更适合专题研究而非日常笔记。

✓ 适合：论文、规范、书籍、审查意见等专题类资料。
✗ 不适合：碎片化笔记、工作日记、频繁变动的数据。
核心判断：知识库的数据能否形成关联的结构化网络。

「道」与「术」

道是客观存在的规律与法则，术是实际实践的方法与技巧。学 AI 技术，更要有学习 AI 的想法。

AI 专班张峥院长1月19日专班会议分享的见解。
人类驱动使用 AI 技术→人类与 AI 的共同协作。
定制化、不受限、可发散的个人知识库很重要。

6月5日接到开课的任务，感谢AI专班组长杜明的鼓励与肯定。

2023年3月9日，水思源QQ机器人：自工技起源~于未来迭代~

感谢前来捧场的各位同事

通过 LLM-Wiki搭建个人知识库