Закинул вам на выходные мощный плейбук по harness engineering из Силиконового мешка.
Это про довольно неприятную для многих мысль: агент тупит не потому, что "модель тупая", а потому что у вас кривые руки кривая среда вокруг неё.
В плейбуке хорошо показывают, что решает не только модель, а вся обвязка: системный промпт, инструменты, ограничения, middleware, документация, линтеры и CI.
LangChain вообще подняли результат на TerminalBench с 52.8% до 66.5%, не меняя модель, а просто перестроив harness.
OpenAI описывают ещё более показательный кейс - команда из 3 инженеров за 5 месяцев собрала продукт с миллионом строк кода, где вручную не написано ни одной строки, всё сделали агенты, а итогом стали 1500 PR и рабочий внутренний продукт для сотен сотрудников.
А Борис Черни, глава продукта Claude Code, вообще заявляет, что 100% его кода уже пишет ИИ. По сути, роль инженера разработчика смещается от «писать код» к «строить обвязку и среду для агентов»
И смысл тут вот в чём: агентам не нужны ваши абстрактные "пиши качественно".
Им нужны четкие правила: какие команды запускать, что запрещено трогать, что считается done, где лежит каноническая документация.
Поэтому "пиши хороший код" не работает, а "запусти lint, typecheck и тесты", "не трогай auth без ADR", "не коммить секреты" уже работает (именно так работает агент Сursor и подобных агентных IDE).
Короче, хороший агент начинается не только с волшебного промта, а с нормально спроектированной среды.
Отсюда и главный вывод плейбука: пожелания агент игнорирует, ограничения исполняет.
Поэтому короткий http://AGENTS.md/, жёсткие MUST / MUST NOT и проверки в CI работают лучше, чем простыня инструкций на 20 экранов.
Отдельно понравилась мысль, что документация для агентов теперь работает как интерфейс управления.
- README нужен человеку.
- http://AGENTS.md/ нужен агенту.
Короче, если агент у вас косячит, не всегда надо бежать менять модель.
Иногда надо просто перестать орать на нее шаманить с запросами и наконец собрать ей нормальный harness.