数字化与人工智能课程 同济大学建筑设计研究院(集团)有限公司

通过 LLM-Wiki
搭建个人知识库

把 Karpathy 的知识库方法论,变成每个人都能上手的工程实践——让 AI 替你整理、关联、沉淀知识,让收藏不再等于遗忘。

LLM-Wiki 课程总览图
24 页课程内容总览 · 点击放大

S1: 当收藏变成遗忘

信息过载的时代,我们需要的不只是存储,而是一种让知识持续生长的方式。LLM-Wiki 正是为此而生的一套方法论。

P01 P01 知识的困境

知识的困境

我们每天都在收藏文章、下载资料,可真正留在脑子里的却越来越少。资料越堆越高,知识却没有积累——这是几乎所有现代人都面临的困境。

  • 信息过载:每天涌入的内容远超大脑处理能力。
  • 检索割裂:传统搜索只能找回片段,看不到关联。
  • 缺乏沉淀:每次提问都从零开始,不复用过往。
P02 P02 LLM-Wiki 的定义

什么是 LLM-Wiki

LLM-Wiki = LLM + Wiki。它借助大语言模型,把零散原始资料自动整理成结构化、可检索的知识库,让"数据库"升级为真正的"知识库"。

  • 从存储到理解:不只保存资料,更读懂资料。
  • 从原料到结构:自动生成摘要、实体与关联。
  • 是一套框架方法论,并不是新的模型或者技术。

S2: 核心思想:把 LLM 当作编译器

LLM-Wiki 的精髓在于"编译"二字——让大模型像编译器一样,把原始资料加工成可复用的知识资产。

P03 P03 核心理念

核心理念:LLM 即编译器

把 LLM 当作一台"知识编译器":它读取原始资料,理解、生成、结构化,最终把零散信息编译成可复用的知识网络。

  • 增量编译:资料越多,知识越完整。
  • 规则约束:用 Schema 把控产出质量。
  • 让信息从"散落的碎片"变为"关联的图谱"
P04 P04 Karpathy

方法论提出者:Karpathy

Andrej Karpathy,深度学习领域最具影响力的实践者之一,也是 LLM-Wiki 思想的核心来源。

  • OpenAI 创始团队成员。
  • 前 Tesla AI 总监,主导 Autopilot 自动驾驶。
  • Stanford CS231n 深度学习课程创立者。
  • 活跃的开源与科普作者。

S3: 三层架构:资料 · 知识 · 规则

LLM-Wiki 的骨架由三层构成,各司其职、形成闭环。理解这三层,就理解了整个体系的运作逻辑。

P05 P05 三层架构总览

三层架构总览

整个体系由三层构成,数据自上而下流动,规则自下而上约束,形成一个自我进化的闭环。

  • Raw 层 原始资料(只读不写)
  • Wiki 层 知识库(LLM 维护)
  • Schema 层 规则(共同维护)
P06 P06 Raw 层

Raw 层:原始资料的基石

知识库的地基。所有原始素材汇入此处,作为整个体系的输入源——越丰富,上层知识越可靠。

  • 来源:文章、论文、笔记、图片、网页、PDF。
  • 用户自主添加,持续扩充。
  • LLM只读不写,根源牢固。
P07 P07 Wiki 层

Wiki 层:知识的中枢

LLM 在此生成网络化的知识内容,把原始资料加工成可检索、可复用的结构。

  • 摘要:提炼核心要点。
  • 实体:人物、机构、项目。
  • 概念:抽象定义与相互关系。
  • 分析:对比、归纳、推理。
P08 P08 Schema 层

Schema 层:规则的骨架

定义知识库"长啥样"的规则层,是整个体系的骨架和目录,约束 LLM 的产出格式。

  • 定义目录结构与命名规范。
  • 约定生成流程与质量标准。
  • 由 LLM 与用户共同维护

S4: 三个动作:摄入 · 问答 · 体检

架构搭好后,日常使用围绕三个动作展开,覆盖知识库的输入、输出与维护全生命周期。

P09 P09 核心操作总览

核心操作总览

日常使用围绕三个动作展开,分别对应知识库的输入、输出和维护,构成完整闭环。

  • Ingest 摄入(输入):资料 → 知识。
  • Query 问答(输出):提问 → 答案。
  • Lint 体检(维护):检查 → 优化。
P10 P10 Ingest 摄入

Ingest 摄入

把资料"喂"进知识库的过程。每添加一份原始文件,LLM 就读取、提取、更新一次 Wiki 层。

  • 添加文件到 raw 目录进行编译
  • LLM 自动提取要点并构建Wiki
  • 每一次摄入都是一次知识迭代
P11 P11 Query 问答

Query 问答

用户进行提问后,LLM会在wiki层进行索引查询,深入阅读后返回综合回答,质量高的问答可以用于wiki的积累。

  • 提问 → LLM 索引 Wiki 层 → 综合回答。
  • 高质量问答还可以反哺知识库的积累
  • 回答有据可查,可快速追溯资料来源
P12 P12 Lint 体检

Lint 体检

定期给知识库做"健康检查"。LLM 遍历全库,发现并修复问题,输出体检报告。

  • 查找孤立、冲突、过期的编译内容。
  • 通过健康度指标对知识库量化评估
  • 根据反馈结果来优化 Schema 规则。

S5: 为什么它不需要 RAG

传统 RAG 依赖向量空间进行检索,LLM-Wiki 则是加载结构化索引。

P13 P13 不需要 RAG 原理

不用 RAG 的原理

传统 RAG 先检索再生成,可能丢失上下文;LLM-Wiki 直接全量加载知识库,准确度与可控性相对更高。

  • 传统 RAG:检索 → 注入 → 生成(易失真)。
  • LLM-Wiki:全量加载 → 直接生成(更准确)。
  • 关键在 index(内容索引) 与 log(运行日志)。
P14 P14 index.md

index.md:知识库的门面

知识库的导航枢纽。每个 Wiki 页面占一行,LLM 回答问题前先读取它来定位。

  • 展示全量库的知识结构。
  • 通过加载索引快速定位
  • 是问答检索的入口文件。
P15 P15 log.md

log.md:操作的黑匣子

按时间顺序记录每次摄入、查询、体检的操作,让知识库的变更历史可回溯。

  • 记录每次 Ingest / Query / Lint。
  • 出现问题可快速定位回溯
  • 是知识库的"飞机黑匣子"。

S6: 与传统 RAG 的分析对比

从知识状态到可维护性,LLM-Wiki 在每个维度都展现出不同的思路。

P16 P16 对比传统 RAG

四个维度的对比

从知识状态、关联构建、累积效应到可维护性,LLM-Wiki 都展现出"编译型"的优势。

  • 知识状态:编译型 vs 解释型。
  • 关联性:网络链接 vs 即时检索。
  • 累积效应:迭代更新 vs 无法积累。
  • 可维护性:白盒可追溯 vs 黑盒不可控。
P17 P17 核心成果的不同

AI与人的分工协作

把枯燥的整理维护交给 AI,用户专注于提供资料与高质量提问。

  • AI 主导:提炼摘要、更新引用、保持一致、检查归档。
  • 用户主导:收集资料、引导方向、优质问答、自我提升。
  • 互相协作:各司其职,优势互补,知识共建,持续积累。

S7: 从理论到落地:工具栈

理念讲完,接下来是实操。四组工具,覆盖从资料收集到本地运行、桌面应用到私有云同步的完整链路。

P18 P18 Obsidian 与 Web Clipper

Obsidian + Web Clipper

Obsidian 是本地优先的 Markdown 笔记软件,承载整个知识库;Web Clipper 是浏览器插件,一键把网页剪藏为 Markdown,汇入 Raw 层。

  • 本地存储,数据完全自主可控。
  • 网页 → 笔记,高效快速的提取
  • 关系图谱,天然适配知识网络。
P19 P19 Node.js 与 OpenCode

Node.js + OpenCode

Node.js 提供 JavaScript 运行环境;OpenCode 是开源智能体并提供免费模型,承担 LLM-Wiki 知识库的执行角色。

  • 为 LLM-Wiki 提供运行环境
  • 开源的项目,支持自由定制
  • 免费的模型,适合基础体验
P20 P20 LLM-Wiki 桌面端

LLM-Wiki 桌面端

把命令行方案封装为图形化桌面应用,让不熟悉终端的用户也能快速完成摄入、问答与体检。

  • 桌面客户端,无需命令行操作。
  • 自动化运行,更为友好的交互
  • 缺点则是没有免费的LLM模型。
P21 P21 Qoder Ollama Fast-Note-Sync

Qoder · Ollama · FNS

三件套组成本地 LLM 工作流闭环,适配从日常使用到保密场景的不同需求。

  • Qoder:智能体执行软件,自带知识库,有免费额度。
  • Ollama:本地大模型引擎,内网环境,适合保密信息。
  • Fast-Note-Sync:跨设备私有云同步,Web端管理编辑。

S8: 总结、分享与致谢

再好的方法也有边界。知道它适合什么、不适合什么,才能真正用好它。

P22 P22 限制与适用场景

限制与适用场景

LLM-Wiki 依赖高质量、相对稳定的资料,因此更适合专题研究而非日常笔记。

  • ✓ 适合:论文、规范、书籍、审查意见等专题类资料。
  • ✗ 不适合:碎片化笔记、工作日记、频繁变动的数据。
  • 核心判断:知识库的数据能否形成关联的结构化网络。
P23 P23 道与术的关系

「道」与「术」

道是客观存在的规律与法则,术是实际实践的方法与技巧。学 AI 技术,更要有学习 AI 的想法。

  • AI 专班张峥院长1月19日专班会议分享的见解。
  • 人类驱动使用 AI 技术→人类与 AI 的共同协作
  • 定制化、不受限、可发散的个人知识库很重要。
P24 P24 致谢
  • 6月5日接到开课的任务,感谢AI专班组长杜明的鼓励与肯定。
  • 2023年3月9日,水思源QQ机器人:自工技起源~于未来迭代~
  • 感谢前来捧场的各位同事