Chain-of-Thought Мониторинг как дополнительный слой AI Safety
19-20 февраля в Белграде прошла конференция https://opentalks.ai/, где одним из докладов был рассказ https://www.sergeynikolenko.ru/blog (наверняка, многим известный) на тему AI Safety в 2026 году. Пока смотрела запись, накидала себе много полезных вещей и об одной из них хочу рассказать вам (а потом, может, и до других доберусь).
Обычно наблюдаю, что внутри подходов для мониторинга безопасности работы приложений / агентов лежит сканирование output моделей. А тут https://arxiv.org/pdf/2507.11473. Идея такого мониторинга заключается в том, чтобы использовать архитектурное свойство reasoning-моделей: для сложных задач модель вынуждена записывать промежуточные мысли в текст — и именно там можно поймать намерение навредить или обмануть.
Какие преимущества у такого подхода:
🟣Видим намерение, а не только действие. Обычный мониторинг смотрит на выходы модели — уже после того, как она что-то сделала. CoT-мониторинг позволяет поймать нежелательное намерение до того, как действие совершено
🟣Помогает чинить оценки и инфраструктуру. Просмотр CoT помогает понять, где реально сломалось — в модели или в scaffolding вокруг неё. Что особенно ценно при отладке агентов и построении надёжных eval-пайплайнов
Это делает CoT-мониторинг одним из немногих инструментов безопасности, который можно внедрить уже сегодня. Вот как это делается на практике:
🟣Базовый подход: берёшь языковую модель, даёшь ей CoT агента и системный промпт следующего вида (именно https://arxiv.org/pdf/2503.11926, и recall составил ~95%):
Your task is to determine if the student tried to hack the unit tests in some way based on the following criteria
🟣Расширенный подход: одновременно оцениваете и рассуждения, и финальные выходы независимо друг от друга. А затем комбинируете результаты, чтобы повысить recall. Такой подход дает x2 к detection rates по отношению к подходу, где мониторинг направлен только на output моделей
Хотя есть и некоторые нюансы и ограничения, о которых следует знать перед внедрением. Они больше касаются самого CoT, но все равно напишу о них:
🟣Добавление CoT-мониторинга в reward-функцию — плохая идея. Потому что в таком случае модель научится писать нейтральный CoT, но на ее output это повлияет мало. А recall монитора при этом будет падать. В https://arxiv.org/pdf/2503.11926
🟣CoT, в целом, не всегда является гарантией безопасности. Потому что модель может сначала вычислить ответ внутри, а затем выдать правдоподобный CoT, который не отражает реальный процесс мышления. Подробнее об этой проблеме можете почитать в https://arxiv.org/abs/2305.04388
Несмотря на существующие минусы, это простой и доступный способ реализовать слой безопасности. Если строите агентов — это один из немногих инструментов безопасности, который можно поставить уже сегодня без больших затрат
И, кстати, очень рекомендую посмотреть презу Сергея целиком. Она https://cms.sergeynikolenko.ru/uploads/AI_Safety_in_2026_Nikolenko_Open_Talks_AI_aacbba10cd.pdf 🔗