Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Follow @gonzo_ML to stay updated with the latest intento and domain trends and news
Пока нет отзывов. Будьте первым, кто поделится своим опытом!
Последние посты
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.
Agentic Systems as Boosting Weak Reasoning Models
Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti
Paper: https://arxiv.org/abs/2605.14163
Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО.
ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора.
Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из k сэмплов), и предоставить системе надёжные внешние сигналы валидации (тесты, линтеры).
Ансамблировать и оркестрировать тут: https://t.me/gonzo_ML_podcasts
1,550
9
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
Снова про диффузию в языковых моделях (недавно было ). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
DMax: Aggressive Parallel Decoding for dLLMs
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Статья: https://arxiv.org/abs/2604.08302
Код: https://github.com/czg1225/DMax
Модель: N/A
Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding
# TL;DR
ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски).
ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini ( https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS).
Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели.
Быстро декодировать тут: https://t.me/gonzo_ML_podcasts
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
1,740
0
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
1,880
0
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
1,920
3
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
2,000
0
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
2,040
14
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную сложность.
LT2: Linear-Time Looped Transformers
Chunyuan Deng, Yizhe Zhang, Rui-jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, and Hanjie Chen
Paper: https://arxiv.org/abs/2605.20670
Code: https://github.com/chili-lab/LT2
Model: https://huggingface.co/chili-lab/Ouro-hybrid-1.4B
Review: https://arxiviq.substack.com/p/lt2-linear-time-looped-transformers
# TL;DR
ЧТО сделали: Авторы представили архитектуру LT2 (Linear-Time Looped Transformers) — семейство рекурсивных моделей, в которых ресурсоёмкое квадратичное внимание заменено на субквадратичные, линейные или разреженные механизмы смешивания токенов. Также они предложили гибридный подход, сочетающий разные типы внимания по глубине и шагам цикла, и разработали многоэтапную стратегию дистилляции для переноса весов из предобученных полносвязных зацикленных трансформеров.
ПОЧЕМУ это важно: Хотя зацикленные трансформеры отлично экономят параметры за счёт повторного использования слоёв, стандартный softmax attention заставляет объём вычислений при обучении и размер KV-cache расти квадратично от длины контекста. LT2 устраняет это узкое место. Исследователи доказали, что зацикливание качественно обогащает субквадратичные миксеры — оно расширяет комбинаторное рецептивное поле разреженного внимания и повышает ранг состояния линейного внимания. Это позволяет запускать мощные рассуждающие модели на длинных контекстах с минимальным потреблением памяти.
Для практиков: Разработанный метод дистилляции даёт готовый рецепт превращения тяжёлой зацикленной модели с полным вниманием в лёгкую субквадратичную версию. Это сокращает объём памяти под KV-cache и ускоряет инференс в 5–6 раз без потери качества работы с длинным контекстом.
Линейно зацикливать здесь: https://t.me/gonzo_ML_podcasts
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
1,790
0
0
gonzo-обзоры ML статей
26 мая 2026 г., 06:18
📷 Photo
1,980
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
Хитроумный Одиссей.
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
Статья: https://arxiv.org/abs/2605.00347
Код: https://odysseus-project.github.io/
Ревью: https://arxiviq.substack.com/p/odysseus-scaling-vlms-to-100-turn
# TL;DR
ЧТО сделали: Авторы представили Odysseus — открытый фреймворк обучения с подкреплением (RL), который позволяет масштабировать Vision-Language Models (VLM) на задачи непрерывного принятия решений длиной более 100 шагов взаимодействия. Спарив огромную VLM-политику с крошечным CNN-критиком и применив фильтрацию положительных преимуществ (positive-advantage filtering), исследователи обходят вычислительные боттлнеки и нестабильность традиционных мультимодальных actor-critic методов.
ПОЧЕМУ это важно: Текущий RL-файнтюнинг для фундаментальных моделей обычно буксует на горизонте в 20–30 шагов или полностью опирается на чистое имитационное обучение. Работа даёт вычислительно подъёмный рецепт превращения пассивных рассуждающих моделей (reasoning models) в надёжных embodied-агентов. Делегирование распределения награды во времени крошечному «зрительному» критику позволяет стабильно обучать VLM на сотни шагов плотного взаимодействия со средой.
Смотреть тут: https://t.me/gonzo_ML_podcasts
2,740
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,500
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,520
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,560
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,410
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,560
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,670
3
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,640
0
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
📷 Photo
2,680
6
0
gonzo-обзоры ML статей
11 мая 2026 г., 01:47
Сжатие сырых логов в структурированные саммари помогает кодовым агентам.
Scaling Test-Time Compute for Agentic Coding
Joongwon (Daniel) Kim, Winnie Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srini Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
Статья: https://arxiv.org/abs/2604.16529
Ревью: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
# TL;DR
ЧТО сделали: Исследователи представили фреймворк для масштабирования вычислений на инференсе для агентов, решающих задачи с длинным горизонтом планирования. Они отказались от использования сырых логов выполнения в пользу структурированных саммари. Для выбора лучших решений распараллеленно применяется алгоритм Recursive Tournament Voting (RTV), а для последовательного ризонинга — адаптированный метод Parallel-Distill-Refine (PDR).
ПОЧЕМУ это важно: Работа изолирует главный боттлнек в масштабировании автономных агентов — представление информации. Авторы доказывают, что модели не могут эффективно оценивать шумные сырые логи взаимодействий или обучаться на них. Предложенная методология позволяет значительно улучшить результаты передовых моделей на сложных бенчмарках без дополнительного предобучения.
Для практиков: Если вы проектируете архитектуры System 2, учтите: выделение большего объема вычислений на инференсе даёт убывающую отдачу, если базовый опыт агента не сжимается. Превращение сырых логов агента (роллаутов) в дистиллированные репрезентации позволяет моделям надежно обмениваться идеями из неудачных попыток. Это радикально сокращает количество шагов для последующих решений и задает новый архитектурный стандарт для агентов-программистов.
Структурированное саммари: https://arxiviq.substack.com/p/scaling-test-time-compute-for-agentic
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
1,720
3
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
1,830
0
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
1,900
0
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
2,190
2
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
2,190
4
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки.
Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts
# TL;DR
ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.
ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.
Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.
Назначать экспертов здесь: https://t.me/gonzo_ML_podcasts
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
1,900
2
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
📷 Photo
2,100
2
0
gonzo-обзоры ML статей
2 апр. 2026 г., 07:28
Seoul World Model — это прикольно!
Grounding World Simulation Models in a Real-World Metropolis
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, and Jin-Hwa Kim
Paper: https://arxiv.org/abs/2603.15583v1
Code: https://seoul-world-model.github.io/
Ревью: https://arxiviq.substack.com/p/grounding-world-simulation-models
# TL;DR
ЧТО сделали: Представили Seoul World Model (SWM) — систему генерации видео масштаба целого города на 2 миллиарда параметров. В основе лежит Diffusion Transformer (DiT), который использует геоиндексированный поиск для привязки авторегрессионной генерации видео к реальным панорамам улиц Сеула, а не выдумывает окружение с нуля.
ПОЧЕМУ это важно: Существующие генеративные мировые модели не умеют сохранять географическую и топологическую достоверность на длинных временных горизонтах: стоит камере завернуть за угол, как модель начинает галлюцинировать новую улицу. Привязывая генерацию к реальным пространственным данным через RAG (retrieval-augmented generation), SWM перекидывает мост между статичными 3D-реконструкциями городов и динамической видеосимуляцией. Это даёт структурную базу для визуализаций в урбанистике и надёжной симуляции граничных случаев для беспилотных авто.
Для практиков: Эта работа знаменует важный переход от чисто параметрических, галлюцинирующих мировых моделей к физически обоснованным «цифровым двойникам». Исследователи внедрили механизм динамического извлечения будущих кадров, которые используются как якоря внимания. Это элегантно решает проблему дрейфа на длинных горизонтах, типичную для авторегрессионной генерации, и доказывает, что пространственный RAG — необходимая архитектура для масштабных и стабильных симуляций среды.
Кататься по Сеулу тут: https://t.me/gonzo_ML_podcasts