Обзор уровней зрелости построения базы знаний — как организовать данные для эффективной работы AI-агентов (Claude Code, Codex, OpenClaw). Автор разбирает 5 уровней зрелости — от простых markdown-файлов до always-on OS с knowledge graphs.
1. Пять Уровней AI Second Brain
1.1. Уровень 1 — Базовая маршрутизация по точному совпадению
- Роутер-файл (
claw.mmdдля OpenClaw /agents.mmdдля Codex) + папкиcontext/,projects/,decisions/. - Файлы организованы по папкам; роутер содержит правила: «информацию обо мне ищи в этой папке».
- Ключевое требование: routing должен быть осмысленным и для человека, и для AI.
- Ограничение: при разрастании системы становится грязно — нет стандарта структуры.
1.2. Уровень 2 — LLM Wiki + тематическая группировка
- LLM Wiki по паттерну Карпаты: индексные файлы, концепции, источники, сравнения.
- Obsidian для визуализации markdown-графа.
- AutoMemory в Claude Code для автоматического сохранения контекста.
- Tool-agnostic: можно дублировать
claw.mmd→agents.mmdдля совместимости с разными инструментами. - Автор видео находится на этом уровне — ему хватает для повседневной работы.
1.3. Уровень 3 — Семантический поиск (Embeddings + Vectors)
- Векторные базы данных: Pinecone, Supabase с pgvector.
- Пайплайн: chunking → embedding → semantic search → hybrid search → reranking.
- Поиск по смыслу, а не по ключевым словам.
- Критическое ограничение: векторный поиск — не магия. Чанкинг теряет контекст (пример: из 20 чанков заметок встречи вернутся только 5 — полная картина утеряна).
- Рекомендация: не обязательно всё класть в векторы — гибридный подход (markdown + векторы) надёжнее.
1.4. Уровень 4 — Knowledge Graphs / Графы связей
- LightRAG, GraphRAG: извлечение сущностей (люди, компании) и отношений (работает на, конкурирует с, сотрудничает).
- Сложность и стоимость: высокий порог входа, дорого в эксплуатации.
- Skill «Grill Me»: сбор данных через AI-интервью для наполнения графа.
- Критическое требование к privacy: данные уходят к Anthropic — для конфиденциальной информации нужны локальные/opensource модели.
1.5. Уровень 5 — Always-On Brain OS (GBrain)
- GBrain от Garry Tan (Y Combinator): постоянная фоновая синхронизация, обновление памяти, cron-задачи.
- Риск: избыток контекста вредит качеству ответов AI.
- Критически важен контроль ingesting: что попадает в память, а что — нет.
- Разделение данных:
- Evergreen (контекст бизнеса, решения, принципы) → в Second Brain.
- Шум (Slack, email, customer data) → не ингестить, но иметь доступ через внешние источники.
2. Ключевые Принципы и Ограничения
2.1. Reverse Engineering: проектирование от запроса
- Начинай с вопроса, который хочешь задать системе, и проектируй структуру данных под способ их использования. Не строй инфраструктуру ради инфраструктуры.
2.2. Минимально достаточный уровень
- Нет объективно «лучшего» уровня — выбирай минимальный, который решает твою конкретную боль.
- Разные папки одного проекта могут находиться на разных уровнях зрелости.
2.3. «Boring is Beautiful»
- Обычные markdown-файлы работают отлично. Не усложняй без необходимости. Простота = надёжность.
2.4. Модель четырёх C (AIOS)
- Context — данные и память. Connections — связи. Capabilities — инструменты. Cadence — ритм обновления.
- Для Second Brain ключевые — первые два (Context + Connections).
2.5. Разделение Evergreen и временных данных
- Evergreen → в Second Brain (долговременная память).
- Временное / операционное → доступ к внешним источникам (ClickUp, Slack), без загрузки в память.
3. Проблемы и Подводные Камни
3.1. Хаос при масштабировании (Уровень 1)
- Роутер-файл и папочная структура становятся неуправляемыми при росте объёма данных.
3.2. Потеря контекста при чанкинге (Уровень 3)
- Векторный поиск возвращает фрагменты, а не полный документ. 20 чанков → retrieval возвращает 5 → решение на неполной информации. Embedding-поиск не заменяет полнотекстовый доступ.
3.3. Сложность Knowledge Graphs (Уровень 4)
- Высокий порог входа: настройка, поддержка, стоимость. Избыточно для большинства задач — перекрёстные ссылки в wiki решают проще.
3.4. Privacy и безопасность
- При использовании облачных LLM (Anthropic) данные уходят вовне. Для конфиденциальной информации обязательны локальные/opensource модели.
3.5. Перегрузка контекстом (Уровень 5)
- Always-On Brain рискует зашумлять контекст нерелевантными данными. Чрезмерный ingest снижает качество ответов.
3.6. Командный Second Brain — organisational, not technical
- Барьер — не инструмент, а habit shift (изменение привычек) и change management. Технология вторична.
4. Практические Рекомендации
- Начни с вопроса: «Какую проблему я решаю?» — и выбери минимальный уровень, который её закрывает. Level 2 (LLM Wiki) достаточно для большинства.
- Гибридный подход к поиску: markdown-файлы для полного контекста + embeddings для быстрого семантического поиска. Не клади всё в векторы.
- Строгий контроль ingesting: чёткие критерии что — evergreen (в память), что — временное (доступ без ingest). Слак и почта — через интеграции, не через загрузку.
- Tool-agnostic архитектура: дублируй конфиги для совместимости. Структура понятна и человеку, и машине.
- Markdown + папки + роутер покрывают 80% потребностей. Усложняй только когда текущий уровень перестаёт справляться.
- Для команд: 80% успеха — готовность документировать знания. Технология — 20%. Внедряй через change management.