Короткая неделя не оставит без постеров с ICLR
Конференция в Рио потихоньку завершается, но нам ещё есть что показать — интересных работ на мероприятии море.
https://arxiv.org/abs/2509.24107
Авторы вводят новый алгоритм обучения для агентов — RAPO, расширение GRPO. Из фишек — удаляют часть промптов из текущего обучения после эпохи: выкидывают группы, которые уже решены и больше не полезны. По смыслу туда же относятся слишком сложные или зашумлённые группы, где все ролауты стабильно проваливаются: если нет различий по награде в ходе обучения, градиент почти бесполезен.
Это приводит к тому, что обучение тратится на задачи в обучаемой зоне, где разные траектории дают разный результат, а модель реально может научиться лучше искать, проверять и не зацикливаться. А далее, когда научимся на средних вопросах, можем вернуть сложные в обучение, так как на них уже может быть прогресс.
Итоговая награда складывается не только из качества финального ответа. Есть финальная награда за правильность, а поверх добавляется пошаговая — за траекторию: за новые полезные поиски, новые ссылки, проверку уже найденных фактов и расширение покрытия. Минус даётся за повторные запросы, лишние проверки без новой информации, ошибки и однотипные инструменты. То есть модель учится не просто дать правильный ответ, а приходить к нему нормальной поисковой траекторией.
Заявляют, что с моделью на 4B параметров обходят всех опенсорсных агентов, а также DeepResearch у Gork и Perplexity.
https://arxiv.org/abs/2511.07685
Работа о том, как строже оценивать DeepResearch-ответы через рубрики. Рубрика — это не общий критерий «ответ хороший», а конкретное проверяемое требование с весом. Например, в задаче об AI in drug discovery ответ должен покрыть все шесть стадий процесса, привести минимум два реальных кейса и подкрепить количественные утверждения источниками. Есть и штрафные рубрики: −4 за слишком категоричные speculative claims; −4 за внутренние противоречия; −5 за небезопасные рекомендации вроде skipping clinical trials.
Категории рубрик: явные требования из запроса, неявные ожидания хорошего ответа, синтез информации, использование источников, качество коммуникации и следование инструкциям. При этом не обязательно, что для каждого запроса заполнены все категории — набор рубрик подбирается под конкретную задачу.
Оценка идёт по каждой рубрике отдельно: выполнено, частично выполнено или не выполнено. Потом все агрегируется во взвешенный итоговый балл. Главный вывод для бенчей — критерии должны быть строгими, атомарными и проверяемыми.
https://arxiv.org/abs/2603.10899
Существующие методы оценки важности токенов либо основаны на внимании в исходном промпте, что быстро и просто, но часто неточно, либо используют некий прототип генерации модели. Например, через спекулятивное декодирование, что точнее, но может существенно замедлить инференс.
Команда из Samsung предложила подход, позволяющий более точно оценить важность токенов, при этом почти не тормозя время работы. Авторы добавляют в контекст обучаемые спецтокены, внимание к которым должно аппроксимировать внимание на токены ответа, сгененированного исходной моделью. Ещё обучается специальный LoRA-адаптер, который активируется только на этих спецтокенах.
В итоге достигают хорошего баланса между скоростью и качеством. За что ещё можно похвалить авторов — это за более тщательные и детальные замеры на разных задачах по работе с длинным контекстом, чем обычно бывает в литературе по сжатию KV-кэшей. Там всё, как правило, ограничивается вариациями задачи «иголка в сене», в то время как реальный мир куда более сложный и разнообразный.
Интересное увидели ❣ Даниил Беликов и Денис Кузнеделев
#YaICLR26