Как вырастить базу знаний от файлов до Brain OS? 5 уровней зрелости Second Brain

Обзор уровней зрелости построения базы знаний — как организовать данные для эффективной работы AI-агентов (Claude Code, Codex, OpenClaw). Автор разбирает 5 уровней зрелости — от простых markdown-файлов до always-on OS с knowledge graphs.


1. Пять Уровней AI Second Brain

1.1. Уровень 1 — Базовая маршрутизация по точному совпадению

  • Роутер-файл (claw.mmd для OpenClaw / agents.mmd для Codex) + папки context/, projects/, decisions/.
  • Файлы организованы по папкам; роутер содержит правила: «информацию обо мне ищи в этой папке».
  • Ключевое требование: routing должен быть осмысленным и для человека, и для AI.
  • Ограничение: при разрастании системы становится грязно — нет стандарта структуры.

1.2. Уровень 2 — LLM Wiki + тематическая группировка

  • LLM Wiki по паттерну Карпаты: индексные файлы, концепции, источники, сравнения.
  • Obsidian для визуализации markdown-графа.
  • AutoMemory в Claude Code для автоматического сохранения контекста.
  • Tool-agnostic: можно дублировать claw.mmdagents.mmd для совместимости с разными инструментами.
  • Автор видео находится на этом уровне — ему хватает для повседневной работы.

1.3. Уровень 3 — Семантический поиск (Embeddings + Vectors)

  • Векторные базы данных: Pinecone, Supabase с pgvector.
  • Пайплайн: chunking → embedding → semantic search → hybrid search → reranking.
  • Поиск по смыслу, а не по ключевым словам.
  • Критическое ограничение: векторный поиск — не магия. Чанкинг теряет контекст (пример: из 20 чанков заметок встречи вернутся только 5 — полная картина утеряна).
  • Рекомендация: не обязательно всё класть в векторы — гибридный подход (markdown + векторы) надёжнее.

1.4. Уровень 4 — Knowledge Graphs / Графы связей

  • LightRAG, GraphRAG: извлечение сущностей (люди, компании) и отношений (работает на, конкурирует с, сотрудничает).
  • Сложность и стоимость: высокий порог входа, дорого в эксплуатации.
  • Skill «Grill Me»: сбор данных через AI-интервью для наполнения графа.
  • Критическое требование к privacy: данные уходят к Anthropic — для конфиденциальной информации нужны локальные/opensource модели.

1.5. Уровень 5 — Always-On Brain OS (GBrain)

  • GBrain от Garry Tan (Y Combinator): постоянная фоновая синхронизация, обновление памяти, cron-задачи.
  • Риск: избыток контекста вредит качеству ответов AI.
  • Критически важен контроль ingesting: что попадает в память, а что — нет.
  • Разделение данных:
    • Evergreen (контекст бизнеса, решения, принципы) → в Second Brain.
    • Шум (Slack, email, customer data) → не ингестить, но иметь доступ через внешние источники.

2. Ключевые Принципы и Ограничения

2.1. Reverse Engineering: проектирование от запроса

  • Начинай с вопроса, который хочешь задать системе, и проектируй структуру данных под способ их использования. Не строй инфраструктуру ради инфраструктуры.

2.2. Минимально достаточный уровень

  • Нет объективно «лучшего» уровня — выбирай минимальный, который решает твою конкретную боль.
  • Разные папки одного проекта могут находиться на разных уровнях зрелости.

2.3. «Boring is Beautiful»

  • Обычные markdown-файлы работают отлично. Не усложняй без необходимости. Простота = надёжность.

2.4. Модель четырёх C (AIOS)

  • Context — данные и память. Connections — связи. Capabilities — инструменты. Cadence — ритм обновления.
  • Для Second Brain ключевые — первые два (Context + Connections).

2.5. Разделение Evergreen и временных данных

  • Evergreen → в Second Brain (долговременная память).
  • Временное / операционное → доступ к внешним источникам (ClickUp, Slack), без загрузки в память.

3. Проблемы и Подводные Камни

3.1. Хаос при масштабировании (Уровень 1)

  • Роутер-файл и папочная структура становятся неуправляемыми при росте объёма данных.

3.2. Потеря контекста при чанкинге (Уровень 3)

  • Векторный поиск возвращает фрагменты, а не полный документ. 20 чанков → retrieval возвращает 5 → решение на неполной информации. Embedding-поиск не заменяет полнотекстовый доступ.

3.3. Сложность Knowledge Graphs (Уровень 4)

  • Высокий порог входа: настройка, поддержка, стоимость. Избыточно для большинства задач — перекрёстные ссылки в wiki решают проще.

3.4. Privacy и безопасность

  • При использовании облачных LLM (Anthropic) данные уходят вовне. Для конфиденциальной информации обязательны локальные/opensource модели.

3.5. Перегрузка контекстом (Уровень 5)

  • Always-On Brain рискует зашумлять контекст нерелевантными данными. Чрезмерный ingest снижает качество ответов.

3.6. Командный Second Brain — organisational, not technical

  • Барьер — не инструмент, а habit shift (изменение привычек) и change management. Технология вторична.

4. Практические Рекомендации

  • Начни с вопроса: «Какую проблему я решаю?» — и выбери минимальный уровень, который её закрывает. Level 2 (LLM Wiki) достаточно для большинства.
  • Гибридный подход к поиску: markdown-файлы для полного контекста + embeddings для быстрого семантического поиска. Не клади всё в векторы.
  • Строгий контроль ingesting: чёткие критерии что — evergreen (в память), что — временное (доступ без ingest). Слак и почта — через интеграции, не через загрузку.
  • Tool-agnostic архитектура: дублируй конфиги для совместимости. Структура понятна и человеку, и машине.
  • Markdown + папки + роутер покрывают 80% потребностей. Усложняй только когда текущий уровень перестаёт справляться.
  • Для команд: 80% успеха — готовность документировать знания. Технология — 20%. Внедряй через change management.

YouTube

    Фото аватара

    Анатолий Юмашев

    Руководитель группы разработки в домене eCommerce, B2C & B2B.

    Изучаю современные веб технологии, платформы и инструменты для eCommerce & CMS.

    Также интересуюсь Agile и различными практиками повышения продуктивности: Kanban, Scrum, S3 ...

    Ответить

    Ваш адрес email не будет опубликован. Обязательные поля помечены *