数字化与人工智能课程 同济大学建筑设计研究院(集团)有限公司

通过 LLM-Wiki
搭建个人知识库

把 Karpathy 的知识库方法论,变成每个人都能上手的工程实践——让 AI 替你整理、关联、沉淀知识,让收藏不再等于遗忘。

LLM-Wiki 课程总览图
24 页课程内容总览 · 点击放大

S1: 当收藏变成遗忘

信息过载的时代,我们需要的不只是存储,而是一种让知识持续生长的方式。LLM-Wiki 正是为此而生的一套方法论。

P01 P01 知识的困境

知识的困境

我们每天都在收藏文章、下载资料,可真正留在脑子里的却越来越少。资料越堆越高,知识却没有积累——这是几乎所有现代人都面临的困境。

  • 信息过载:每天涌入的内容远超大脑处理能力。
  • 检索割裂:传统搜索只能找回片段,看不到关联。
  • 缺乏沉淀:每次提问都从零开始,不复用过往。
P02 P02 LLM-Wiki 的定义

什么是 LLM-Wiki

LLM-Wiki = LLM + Wiki。它借助大语言模型,把零散原始资料自动整理成结构化、可检索的知识库,让"数据库"升级为真正的"知识库"。

  • 从存储到理解:不只保存资料,更读懂资料。
  • 从原料到结构:自动生成摘要、实体与关联。
  • 是一套框架方法论,而非某项新技术。

S2: 核心思想:把 LLM 当作编译器

LLM-Wiki 的精髓在于"编译"二字——让大模型像编译器一样,把原始资料加工成可复用的知识资产。

P03 P03 核心理念

核心理念:LLM 即编译器

把 LLM 当作一台"知识编译器":它读取原始资料,理解、生成、结构化,最终把零散信息编译成可复用的知识网络。

  • 增量编译:资料越多,知识越完整。
  • 规则约束:用 Schema 把控产出质量。
  • 让信息从"散落"变为"可用"。
P04 P04 Karpathy

方法论提出者:Karpathy

Andrej Karpathy,深度学习领域最具影响力的实践者之一,也是 LLM-Wiki 思想的核心来源。

  • OpenAI 创始团队成员。
  • 前 Tesla AI 总监,主导 Autopilot 自动驾驶。
  • Stanford CS231n 深度学习课程创立者。
  • 活跃的开源与科普作者。

S3: 三层架构:资料 · 知识 · 规则

LLM-Wiki 的骨架由三层构成,各司其职、形成闭环。理解这三层,就理解了整个体系的运作逻辑。

P05 P05 三层架构总览

三层架构总览

整个体系由三层构成,数据自下而上流动,规则自上而下约束,形成一个自我进化的闭环。

  • Raw 层 原始资料(只读)
  • Wiki 层 知识库(LLM 维护)
  • Schema 层 规则(共同维护)
P06 P06 Raw 层

Raw 层:原始资料的基石

知识库的地基。所有原始素材汇入此处,作为整个体系的输入源——越丰富,上层知识越可靠。

  • 来源:文章、论文、笔记、图片、网页、PDF。
  • 用户自主添加,持续扩充。
  • 只读保护区:LLM 只读不写,保证源可信。
P07 P07 Wiki 层

Wiki 层:知识的中枢

LLM 在此生成网络化的知识内容,把原始资料加工成可检索、可复用的结构。

  • 摘要:提炼核心要点。
  • 实体:人物、机构、项目。
  • 概念:抽象定义与相互关系。
  • 分析:对比、归纳、推理。
P08 P08 Schema 层

Schema 层:规则的骨架

定义知识库"长什么样"的规则层,是整个体系的骨架和目录,约束 LLM 的产出格式。

  • 定义目录结构与命名规范。
  • 约定生成流程与质量标准。
  • 由 LLM 与用户共同维护

S4: 三个动作:摄入 · 问答 · 体检

架构搭好后,日常使用围绕三个动作展开,覆盖知识库的输入、输出与维护全生命周期。

P09 P09 核心操作总览

核心操作总览

日常使用围绕三个动作展开,分别对应知识库的输入、输出和维护,构成完整闭环。

  • Ingest 摄入(输入):资料 → 知识。
  • Query 问答(输出):提问 → 答案。
  • Lint 体检(维护):检查 → 优化。
P10 P10 Ingest 摄入

Ingest 摄入

把资料"喂"进知识库的过程。每添加一份原始文件,LLM 就读取、提取、更新一次 Wiki 层。

  • 添加文件到 raw 目录即触发。
  • LLM 自动提取要点并建立关联。
  • 每次摄入都是一次知识迭代
P11 P11 Query 问答

Query 问答

直接在知识库上提问。LLM 基于已结构化的知识作答,无需向量数据库、无需 RAG。

  • 提问 → LLM 索引 Wiki 层 → 综合回答。
  • 高质量问答可反哺知识库积累。
  • 回答有据可查,可追溯来源。
P12 P12 Lint 体检

Lint 体检

定期给知识库做"健康检查"。LLM 遍历全库,发现并修复问题,输出体检报告。

  • 查找孤立、冲突、过期的内容。
  • 通过健康度指标(HScore)量化评估。
  • 根据反馈同步优化 Schema 规则。

S5: 为什么它不需要 RAG

传统 RAG 靠向量检索,LLM-Wiki 靠结构化加载。两种思路,带来准确度与可控性的根本差异。

P13 P13 不需要 RAG 原理

不用 RAG 的原理

传统 RAG 先检索再生成,可能丢失上下文;LLM-Wiki 直接全量加载知识库,准确度与可控性更高。

  • 传统 RAG:检索 → 注入 → 生成(易失真)。
  • LLM-Wiki:全量加载 → 直接生成(更准确)。
  • 关键在 index.mdlog.md
P14 P14 index.md

index.md:知识库的门面

整个知识库的导航枢纽。每个 Wiki 页面占一行,LLM 回答问题前先读取它来定位。

  • 展示全库的知识结构。
  • 通过索引快速跳转定位。
  • 是问答检索的入口文件。
P15 P15 log.md

log.md:操作的黑匣子

按时间顺序记录每次摄入、查询、体检的操作,让知识库的变更历史可回溯。

  • 记录每次 Ingest / Query / Lint。
  • 出现问题可快速定位回溯。
  • 是知识库的"黑匣子"。

S6: 与传统 RAG 的根本差异

从知识状态到可维护性,LLM-Wiki 在每个维度都展现出不同的哲学。

P16 P16 对比传统 RAG

四个维度的对比

从知识状态、关联构建、累积效应到可维护性,LLM-Wiki 都展现出"编译型"的优势。

  • 知识状态:编译型 vs 解释型。
  • 关联性:网络链接 vs 即时检索。
  • 累积效应:迭代更新 vs 无积累。
  • 可维护性:白盒可追溯 vs 黑盒不可控。
P17 P17 核心成果的不同

人机分工的智慧

关键在于分工:把枯燥的整理维护交给 AI,人专注于提供资料与高质量提问。

  • AI 主导:提炼摘要、更新引用、保持一致、检查归档。
  • 用户主导:收集资料、引导方向、高质量问答、自我提升。

S7: 从理论到落地:工具栈

理念讲完,接下来是实操。四组工具,覆盖从资料收集到本地运行、桌面应用到私有云同步的完整链路。

P18 P18 Obsidian 与 Web Clipper

Obsidian + Web Clipper

Obsidian 是本地优先的 Markdown 笔记软件,承载整个知识库;Web Clipper 是浏览器插件,一键把网页剪藏为 Markdown,汇入 Raw 层。

  • 本地存储,数据完全自主可控。
  • 网页 → 笔记的无缝衔接。
  • 双链笔记,天然适合知识网络。
P19 P19 Node.js 与 OpenCode

Node.js + OpenCode

Node.js 提供 JavaScript 运行环境;OpenCode 是开源终端编程智能体,承担 LLM-Wiki 中"读取、提取、增量更新"的执行角色。

  • 为 LLM-Wiki 提供本地运行底座。
  • 无需云端依赖,全流程本地完成。
  • 开源免费,可自由定制。
P20 P20 LLM-Wiki 桌面端

LLM-Wiki 桌面端

把命令行方案封装为图形化桌面应用,让不熟悉终端的用户也能一键完成摄入、问答与体检。

  • 一键启动,无需命令行配置。
  • 本地优先,数据存储在本地。
  • 大幅降低上手门槛。
P21 P21 Qoder Ollama Fast-Note-Sync

Qoder · Ollama · FNS

三件套组成本地 LLM 工作流闭环,适配从日常使用到保密场景的不同需求。

  • Qoder:智能体执行软件,自带知识库,有免费额度。
  • Ollama:本地大模型引擎,纯内网,适合保密信息。
  • Fast-Note-Sync:搭配 VPS 与域名,跨设备私有云同步。

S8: 边界、适用与升华

再好的方法也有边界。知道它适合什么、不适合什么,才能真正用好它。

P22 P22 限制与适用场景

限制与适用场景

LLM-Wiki 依赖高质量、相对稳定的原始资料,因此更适合专题研究而非日常碎记。

  • ✓ 适合:论文、规范、书籍、审查意见等专题资料。
  • ✗ 不适合:碎片化笔记、多方向日记、频繁变动数据。
  • 核心判断:能否形成互相关联的知识网络
P23 P23 道与术的关系

「道」与「术」

道是客观存在的规律与法则,术是实际实践的方法与技巧。学技术,更要有学习 AI 的心态。

  • 年初 AI 专班张峥院长分享的见解。
  • 个人知识库是定制化、不受限、可发散的。
  • 想买都买不到,却能随时迁移与扩展。
P24 P24 致谢

致谢

感谢 Karpathy 的启发,感谢开源社区与工具开发者,感谢各位的聆听。

谢谢聆听

也感谢专班组长杜明的鼓励,以及自己学习 AI 的初心。