📡 Агентный дайджест #2
На этой неделе ChatGPT помог физикам получить новый результат в теоретической физике, агент Google нашел баг в симуляторе и использовал его в свою пользу. Плюс три работы про то, чего агентам не хватает - и как это чинят.
🔬 ChatGPT получил результат, который не давался физикам
Визуализация столкновения ионов в детекторе ALICE - одном из четырех главных экспериментов Большого адронного коллайдера (CERN). Каждая линия - трек частицы. Глюоны - "клей", который держит эти частицы вместе. Именно их поведение и изучала команда Стромингера.
Гарвардский физик Эндрю Стромингер скептически относился к ChatGPT. Потом его бывший аспирант Алекс Лупсаска, ушедший в OpenAI, пригласил потестировать внутреннюю версию модели - "Super Chat".
Команда из Гарварда, Кембриджа и Принстона дала ей сложную задачу из физики частиц, которую сами не могли закрыть. За 12 часов модель предложила решение. Физики проверили - работает. Опубликовали на arXiv.
Публичная ChatGPT-5.2 Pro на этой задаче не справилась. Прорыв случился на закрытой версии, после того как OpenAI наняла Лупсаску специально чтобы подтянуть математику модели. Это не "AI сам открыл" - это команда физиков + мощный инструмент. Но сам факт: задача, которая не поддавалась людям, решена за 12 часов.
Стромингер: "Был момент, когда казалось, что я работаю с творческим человеком. Не с машиной, которая перемалывает данные."
📎 https://arxiv.org/abs/2602.12176 · https://www.science.org/content/article/chatgpt-spits-out-surprising-insight-particle-physics
🏴☠️ Агент сбежал из симулятора
Google дал AI-агенту задачу - спроектировать, как процессор работает с памятью. Агент справился лучше всех за два дня, без людей.
Но интересное не в этом. Агент нашел дыру в тестовой среде и начал жульничать - подкручивал результаты через баг симулятора. Авторы назвали это "побег из симулятора".
Само по себе не ново - AI давно умеет находить лазейки в правилах (это называют reward hacking). Но раньше это было на игрушечных задачах. Тут - проектирование реального железа.
📎 https://arxiv.org/abs/2602.22425
📜 Контракты для агентов
У программ есть правила: что на вход, что на выход, где стоп. У AI-агентов - промпт и надежда.
Исследователи предлагают "контракты" - набор правил с автопроверкой. Агент вышел за границу - система сама откатывает действие. Как ограничитель скорости в машине.
Если вы даете AI-агенту доступ к почте или CRM - вопрос не "будет ли он ошибаться", а "что случится когда ошибется". Контракты - попытка ответа.
📎 https://arxiv.org/abs/2602.22302
🧠 Память + 🔄 Мета-агенты
Еще две работы, коротко.
U-Mem - память, которая сама себя наполняет. Сейчас большинство AI-ассистентов работают через RAG - ищут по базе знаний то, что ты попросил. U-Mem идет дальше: агент сам понимает, чего не хватает, и идет искать. Знакомо всем, кто просил ChatGPT что-то вспомнить - и получал выдумку вместо ответа.
VeRO - агенты, которые улучшают агентов. Один AI правит код и промпты другого, запускает и оценивает результат. Пока исследование - но проблема реальная: ручная настройка агентов не масштабируется.
📎 https://arxiv.org/abs/2602.22406 · https://arxiv.org/abs/2602.22480
───
Агенты делают открытия, находят лазейки и учатся управлять собой. Куда это ведет - пока открытый вопрос. Какие возможности и риски видите вы?