Перейти к содержимому

LLM Wiki — паттерн базы знаний для AI-агентов

LLM Wiki — это паттерн организации знаний, в котором LLM не просто отвечает по загруженным файлам, а поддерживает постоянную wiki-базу из Markdown-страниц.

Ключевая идея: знание не пересобирается заново на каждый вопрос, а накапливается и уточняется по мере добавления новых источников.

В формулировке Andrej Karpathy это «compounding artifact»: каждая новая итерация делает базу полезнее, а не просто увеличивает объём данных.

В типичном RAG-подходе система на каждом запросе ищет релевантные куски в сырых документах и собирает ответ заново.

В LLM Wiki между пользователем и источниками появляется промежуточный слой:

  • Курированная wiki с сущностями, концептами, summary-страницами и связями
  • Кросс-ссылки между страницами
  • Фиксация противоречий и обновлений при новом ingest

Итог: вместо одноразового retrieval формируется долговременный граф знаний.

По исходному паттерну есть три слоя:

  1. Raw sources — неизменяемые исходники (статьи, заметки, отчёты, данные)
  2. Wiki — каталог Markdown-страниц, которые создаёт и поддерживает LLM
  3. Schema — файл правил (например AGENTS.md/CLAUDE.md), который задаёт структуру, workflow и стандарты качества

Роли разделяются так:

  • Человек отвечает за выбор источников, вопросы и направление анализа
  • LLM отвечает за рутину: суммаризацию, перекрёстные ссылки, обновление связанных страниц, учёт изменений

При добавлении нового источника LLM:

  • читает source
  • создаёт/обновляет summary
  • правит связанные страницы сущностей и концептов
  • обновляет index.md
  • добавляет запись в log.md

Один источник может затронуть много страниц, поэтому важен контроль правил в schema.

Запросы выполняются не по сырым файлам напрямую, а по текущему состоянию wiki. Полезные ответы (сравнения, выводы, новые связи) можно сохранять как новые страницы, чтобы знание продолжало накапливаться.

Периодический аудит качества wiki:

  • противоречия между страницами
  • устаревшие утверждения
  • страницы-сироты
  • отсутствующие cross-links
  • пробелы в покрытии тем
  • index.md — навигационный каталог по содержанию: что есть в базе и где это лежит
  • log.md — хронология операций: что и когда было ingested/обновлено/проверено

Эта пара файлов делает wiki управляемой для человека и предсказуемой для агента.

  • Долгие исследования с большим числом источников
  • Внутренние базы знаний команды (процессы, решения, контекст проектов)
  • Личные knowledge-системы в духе second brain
  • Любые сценарии, где важно накопление и пересборка знаний со временем
  • Без чёткой schema-конвенции wiki быстро теряет единый стиль
  • При слабом контроле качества возможен drift (устаревание и конфликтные страницы)
  • На больших объёмах нужен аккуратный retrieval и lint-стратегия, чтобы не раздувать стоимость