data/context
01 / 07 CTX-01

Слайд 1

Как превратить ваши данные в рабочий контекст для ИИ-агентов

Универсального одного коннектора нет. Рабочая схема обычно одна: сначала забрать сырьё, потом нормализовать его под агента.

сырьё из сервисов сходится в один рабочий контур
Контекст агента

Слайд 2

Скачать архив ещё не значит получить контекст

Архив, API-ответ или лог чата дают сырьё. Контекст начинается в момент, когда вы выделили сущности, связи, время, вложения и правила извлечения обратно.

1. Сырьё

Архивы, API, чаты, файлы

Разовый снимок или поток обновлений. Главное на этом шаге: ничего не потерять.

2. Нормализация

Сущности, авторы, время, вложения

Приводим разнородные форматы к канонической модели, пригодной для поиска и памяти.

3. Контекст агента

Поиск, память, действия

Только после нормализации агент может доставать нужное по запросу, а не тонуть в сыром шуме.

raw / bronze → normalized / silver → retrieval / memory

Слайд 3

У данных есть три режима доступа

Режим 1

Ручной экспорт

  • Самый быстрый и безопасный старт.
  • Даёт архив, но не живую систему.
  • Идеален для первого backfill без кода.
ChatGPT Claude Facebook

Режим 2

Официальный API

  • Подходит для регулярного ingest-контура.
  • Даёт сущности, статусы, события и дельты.
  • Но быстро упирается в scopes и rate limits.
Gmail Notion Trello

Режим 3

Кастомная интеграция

  • Нужна, когда API неполный или не про историю.
  • Часто это glue code между export, events и файлами.
  • Самая честная зона для прав и технических компромиссов.
Telegram Rocket.Chat WhatsApp

Слайд 4

Gmail, Notion и Trello: где проще стартовать

Это источники, где уже есть достаточно структуры, чтобы быстро получить первый рабочий контур для агента.

Gmail сильный источник
  • Забор: export + API + `watch`.
  • Просто: письма, треды, метки, регулярная подача.
  • Сложно: restricted scopes и продуктовые доступы.
Notion хороший старт
  • Забор: export, API, webhooks.
  • Просто: страницы и базы уже почти структурированы.
  • Сложно: доступ только к явно расшаренному и жёсткие лимиты.
Trello агентно-естественный
  • Забор: JSON-export, API, webhooks.
  • Просто: доска, список, карточка, комментарий, вложение.
  • Сложно: базовый export не равен полной истории изменений.
лучший первый кандидат = уже структурированный источник + официальный способ забора

Слайд 5

Rocket.Chat, Telegram и WhatsApp: где сложность честнее

Здесь проблема обычно не в том, что “данных нет”, а в том, что история, права и живые интеграции живут в разных режимах доступа.

Rocket.Chat rights-sensitive
  • Ключ: всё зависит от прав и владения контуром.
  • Хорошо: self-hosted + admin даёт историю и интеграции.
  • Риск: без нужных permissions “подключение” быстро схлопывается.
Telegram три разных кейса
  • Bot API: новые сообщения и живые события.
  • Desktop export: история чатов и медиа.
  • Client stack: глубокий доступ, но уже зона своей разработки.
WhatsApp business contour
  • Реалистично: руками экспортировать конкретный чат.
  • Автоматизация: через Business Platform и Cloud API.
  • Вывод: неудобный стартовый источник для личной памяти агента.

Слайд 6

Сначала заберите то, что уже умеет экспортироваться

До написания коннекторов часто полезнее собрать первые архивы из сервисов, где официальный экспорт уже встроен в интерфейс.

Что даёт первый слой личного контекста
Почему важно быстрый результат и низкий риск
Чего не даёт ещё не production-интеграцию

Слайд 7

Возьмите два источника и разложите их честно

Простой источник Notion / Trello / Gmail

Нужен, чтобы быстро пройти путь от забора до нормализации.

Сложный, но важный Telegram / Rocket.Chat / WhatsApp

Нужен, чтобы увидеть реальные ограничения: права, история, форматы.

  1. Откуда именно я забираю данные?
  2. В каком формате они ко мне приезжают?
  3. Что здесь считать единицей контекста?
  4. Что можно сделать вообще без кода?
  5. Где уже нужна своя прослойка?
Брать первым структурированный источник
Не делать не пытаться сразу “засунуть всё в агента”
Фиксировать ошибки, права, тупики, странные форматы
сначала сохранить сырьё → понять структуру → только потом индексировать