LLM Wiki Pattern
🇹🇭 ภาษาไทย
วิธีสร้าง personal knowledge base ที่ LLM ดูแลรักษา wiki แบบ persistent และ interlinked อย่างต่อเนื่อง แทนที่จะ re-derive คำตอบจาก raw documents ทุกครั้งที่ถาม
ความแตกต่างจาก RAG
| RAG (traditional) | LLM Wiki | |
|---|---|---|
| ความรู้ | Re-derived ทุก query | Compile ครั้งเดียว, อัปเดตต่อเนื่อง |
| การสังเคราะห์ | Ephemeral (อยู่ใน chat) | Persistent (อยู่ใน wiki) |
| Cross-references | คำนวณตอน query | เขียนไว้แล้วใน wiki |
| Contradictions | อาจพลาด | Flag ไว้ inline |
| การดูแล | ไม่ต้องดูแล | LLM ดูแลทั้งหมด |
สถาปัตยกรรม 3 ชั้น
Layer 1 — Raw sources (raw/)
เอกสาร source ที่ immutable LLM อ่านได้ ไม่เขียน
Layer 2 — Wiki (wiki/)
Pages ที่ LLM สร้างและดูแล — entity pages, concept pages, source summaries, analyses, index, log
Layer 3 — Schema (CLAUDE.md)
Operating rules สำหรับ LLM: directory structure, naming conventions, formats, workflows
Operations
Ingest: อ่าน source → คุย key takeaways → เขียน source page → อัปเดต entity/concept pages → อัปเดต overview/index → append log
Query: อ่าน index → อ่าน relevant pages → สังเคราะห์คำตอบพร้อม citations → เก็บเป็น analysis page (ถ้าตกลงกัน)
Lint: ตรวจสอบ contradictions, orphan pages, stale claims, missing cross-references
ทำไมถึงได้ผล
bottleneck ของ personal knowledge management คือ maintenance ไม่ใช่ curation มนุษย์ทิ้ง wiki เพราะค่าใช้จ่ายของการดูแล compounding เร็วกว่า value ที่ได้ LLM ขจัด bottleneck นี้ได้ — ไม่เบื่อ ไม่ลืม cross-references ไม่เสีย context
ตระกูลความคิด
- Vannevar Bush, Memex (1945) — private associative knowledge store; Bush ไม่มีเครื่องมือทำ maintenance อัตโนมัติ
- Fan wikis — thousands of interlinked pages; pattern นี้ replicate ความหนาแน่นนั้นสำหรับบุคคลคนเดียว
- NotebookLM / ChatGPT files — คล้ายที่สุดในกระแสหลัก แต่ใช้ RAG (re-derive per query, ไม่มี persistent synthesis)
Related
- RAG vs Wiki — เปรียบเทียบสองแนวทางแบบละเอียด
- Memex — precursor concept ของ Bush ปี 1945
- MemPalace — ระบบ verbatim retrieval ที่ตรงข้าม philosophy
🇬🇧 English
A method for building a personal knowledge base where an LLM incrementally maintains a persistent, interlinked wiki rather than answering questions by re-deriving from raw documents each time.
Core Distinction
| RAG (traditional) | LLM Wiki | |
|---|---|---|
| Knowledge | Re-derived per query | Compiled once, kept current |
| Synthesis | Ephemeral (lives in chat) | Persistent (lives in wiki) |
| Cross-references | Computed at query time | Already written in the wiki |
| Contradictions | May be missed | Flagged inline |
| Maintenance | None needed | LLM handles everything |
Three-Layer Architecture
Layer 1 — Raw sources (raw/)
Immutable source documents. Articles, papers, notes, data files. The LLM reads from here but never writes.
Layer 2 — The wiki (wiki/)
LLM-generated and LLM-maintained markdown pages: entity pages, concept pages, source summaries, analyses, an index, and a log.
Layer 3 — The schema (CLAUDE.md)
Operating rules for the LLM: directory structure, naming conventions, page formats, and workflow steps for each operation. Evolved collaboratively over time.
Operations
Ingest: Read source → Discuss key takeaways → Write source summary page → Update entity/concept pages (may touch 5–20 pages) → Update overview and index → Append log entry.
Query: Read index.md → Read relevant pages → Synthesize answer with wiki-link citations → Optionally file as an analysis page.
Lint: Check for contradictions, orphan pages, stale claims superseded by newer sources, concepts mentioned but lacking their own page, missing cross-references.
Why It Works
The bottleneck in personal knowledge management is maintenance, not curation. Humans abandon wikis because upkeep cost compounds faster than the value gained. LLMs eliminate this bottleneck — they don’t get bored, forget cross-references, or lose context across 15 files.
Human role: source curation, direction, asking good questions. LLM role: all bookkeeping — summarizing, cross-referencing, filing, keeping things consistent.
Intellectual Lineage
- Vannevar Bush, Memex (1945) — private associative knowledge store with trails between documents. Bush couldn’t solve who maintains it. This pattern’s answer: the LLM.
- Fan wikis (Tolkien Gateway, etc.) — thousands of interlinked pages built by community. This pattern replicates that density for a single person, with the LLM as the community.
- NotebookLM / ChatGPT file uploads — closest mainstream analogues, but both use RAG (re-derivation per query, no persistent synthesis).
- MemPalace — local-first verbatim retrieval system; represents the opposing philosophy (store raw, search smart). See RAG vs Wiki for full contrast.
Open Questions
- Optimal grain for entity vs. concept page split
- Scaling strategy beyond ~hundreds of pages (hybrid index + vector search?)
- Best schema conventions for different domains (personal, research, business)