i
ДАТАИСТ
Dataism Science Hub

Context Engineering:
новая дисциплина для автономных ИИ-агентов

Обложка AGENTS.md

После GitHub Copilot и ChatGPT многие команды привыкли поручать LLM писать куски кода и тестов. Но следующая волна — это агентные инструменты, которые действуют более автономно: сами читают репозиторий, запускают команды, правят файлы и собирают PR. И тут всплывает практическая проблема: агенту недостаточно пары предложений в промте. Ему нужно понимать, как устроен проект и как в нём принято работать — от архитектуры и интерфейсов до правил код-стайла, команд сборки и требований к безопасности.

Авторы статьи Context Engineering for AI Agents in Open-Source Software смотрят на то, как разработчики решают эту задачу «вживую» — прямо в открытых репозиториях. Вместо одноразовых промтов появляются версионируемые файлы с инструкциями для ИИ-агента: что трогать нельзя, как запускать тесты, какие паттерны использовать, как оформлять изменения. Это и есть context engineering: не столько «как сформулировать просьбу», сколько «какой контекст подложить под задачу», чтобы агент не действовал вслепую.

От README для людей — к документации для машин

Идея проста: положить в репозиторий специальный Markdown-файл, который агент будет автоматически подмешивать к каждому запросу. У разных инструментов — разные «ожидаемые» имена (например, CLAUDE.md, copilot-instructions.md), а в качестве потенциально универсального стандарта обсуждается AGENTS.md. Он задуман как tool-agnostic формат: один и тот же файл подходит разным агентам.

Но насколько это вообще стало массовой практикой? И что туда пишут — сухое описание проекта или жёсткие запреты? Авторы формулируют три вопроса: насколько широко такие файлы приняли в open-source, какая в них структура и как они меняются со временем.

Как искали репозитории и что считали «настоящим» проектом

Сбор данных оказался не таким тривиальным, как «возьмём топ GitHub». К 2025 году самые популярные репозитории по звёздам не обязательно про софт. Поэтому авторы используют фильтры зрелости и активности: не форк, минимум два контрибьютора, есть лицензия, проект создан до 2024 года и при этом недавно обновлялся. Затем они дополнительно отсекают странные лицензии, неподходящие репозитории и фокусируются на 10 популярных языках программирования. В результате для первичного скрининга берут 10 000 репозиториев и проверяют, есть ли в дефолтной ветке файлы форматов, которые поддерживают распространённые инструменты.

Для более глубокого чтения выбирают именно AGENTS.md — как наиболее «универсальный» кандидат.

Схема сбора данных
Схема того, как авторы отбирали репозитории и искали в них AI-конфигурационные файлы. Пайплайн включает фильтрацию по ключевым словам и валидацию содержимого.

Насколько это распространено на практике

Цифра выглядит отрезвляюще: только 466 репозиториев из 10 000, то есть около 5%, содержали хотя бы один AI configuration file из четырёх проверенных форматов. Это не значит, что явление редкое в целом (по поиску GitHub таких файлов могут быть десятки тысяч), но среди «зрелых и заметных» проектов это пока не мейнстрим.

Есть и языковые перекосы: TypeScript-репозитории чаще встречаются с файлами под Claude Code, C# — заметнее с инструкциями под Copilot. AGENTS.md в среднем короче, но с самой высокой вариативностью: от лаконичных заметок до больших «мини-мануалов».

Что кладут в AGENTS.md и как разговаривают с агентом

Самое интересное начинается, когда авторы заглядывают внутрь. Они разбирают заголовки секций, группируют их по смыслу и получают набор тем, которые чаще всего считают важными для агента. В лидерах — практики программирования, правила контрибьюта, архитектура и структура проекта, команды сборки и тестирования. Реже — troubleshooting и security (хотя, казалось бы, автономному агенту запреты и границы должны быть особенно полезны).

Отдельно авторы замечают: единого шаблона AGENTS.md нет. Один проект пишет как справочник (что здесь принято), другой — как набор приказов (делай так), третий — как список запретов (никогда так не делай), четвёртый добавляет объяснения «почему так», а иногда встречаются условные инструкции на случай редких ситуаций. Это важное наблюдение: в отличие от README, где структура более-менее устоялась, «документация для машин» ещё ищет свой канон.

Таблица 1: Категории информации
Таблица демонстрирует, какие сущности чаще всего описываются в конфигурациях.

Как эти файлы живут во времени

История изменений тоже показательная. В половине случаев AGENTS.md вообще не менялся после первого коммита — словно его добавили «потому что надо», но дальше не интегрировали в регулярную поддержку. Примерно четверть файлов менялись один раз, и лишь часть — активно эволюционировала.

Когда изменения происходят, чаще всего это добавление или правка конкретных инструкций. Причём нередко такие правки идут рядом с реальными исправлениями кода или тестов: например, после флейки-теста команда уточняет, как именно агенту запускать тестовый набор, чтобы не плодить шум. Авторы видят в этом перспективное направление: co-evolution кода и AI-конфига, когда инструкции становятся живым артефактом разработки.

Таблица 2: Категории изменений
Показывает, какие именно аспекты ИИ-поведения разработчики корректируют чаще всего в процессе жизненного цикла проекта.

Что из этого следует

Эта работа не пытается доказать, что AGENTS.md уже «победил» или что существует лучшая структура. Скорее она фиксирует момент: разработчики начали версионировать контекст для LLM и агентов — и это открывает редкую возможность изучать context engineering не по постам и демо, а по реальным следам в репозиториях.

~5% Проектов имеют ИИ-конфиги
50% Файлов не меняются
Context Новая дисциплина

Главный вывод звучит прагматично: если агентные инструменты будут становиться автономнее, то такие файлы стоит воспринимать как часть инженерной дисциплины. Их нужно ревьюить, поддерживать, проверять на актуальность и, возможно, даже «тестировать» — например, оценивать, как изменения в инструкциях влияют на поведение агента.