Вместо итогов года, хочу поделиться моим списком лучших — самых значимых или просто понравившихся — статей, которые я прочитал за последние два года (про 2024 раньше не писал). В порядке прочтения.
https://arxiv.org/abs/2305.12102
Статья DeepMind о том, что можно использовать одну универснальную таблицу эмбеддингов для многих sparse фичей. Полезная практическая статья.
Обзоры
https://t.me/RecSysChannel и
https://t.me/researchoshnaya
https://arxiv.org/abs/2402.17152
Громкая статья от Meta. Первая показала, что можно обучать огромные модели для рекомендаций. Ввела HSTU и новое представление истории. Лично для меня это был первый намёк на то, что когда-нибудь мы сможем отказаться от всех ручных фичей.
Обзоры
https://t.me/RecSysChannel и
https://t.me/redrecsys
https://arxiv.org/abs/2306.04039
Meta показала, что retrieval можно делать на GPU без индекса. Также вводят для второй стадии модель mixture-of-logits (MoL), которая является более выразительной, но всё ещё относительно дешевой в вычислениях функцией. Для меня это была первая статья, показавшая, что retrieval можно делать лучше, чем всем привычным HNSW. И я сам потом работал над этим подходом. Обзоры
https://t.me/WazowskiRecommends и
https://t.me/knowledge_accumulator
А в https://arxiv.org/abs/2407.15462 показали, что можно всё-таки и с индексами и без GPU напрямую искать топ по MoL. Обзор
https://t.me/RecSysChannel
Серия Semantic IDs от DeepMind
- https://arxiv.org/abs/2305.05065 (обзоры
https://t.me/knowledge_accumulator и
https://t.me/RecSysChannel)
- https://arxiv.org/abs/2306.08121 (обзор
https://t.me/researchoshnaya)
- https://arxiv.org/abs/2510.07784v1 (обзоры
https://t.me/inforetriever и
https://t.me/RecSysChannel)
Номер 1 по значимости, самый существенный сдвиг парадигмы последнего времени. Токенизатор рекомендательного мира, представляющий контентную информацию об объектах в виде кодов из конечного словаря, полученного из иерархической кластеризации (RQ-VAE). Использование этой токенизации для нового метода retrieval, для более эффективных эмбеддингов в ранжировании и для связи с LLM. Уже повлияло на всю индустрию. Must read.
https://arxiv.org/abs/2501.08695
Одна вещь, которая меня больше всего смущала в Semantic IDs, — что RQ-VAE обучается отдельно, не end-to-end совместно с рекомендательной задачей. В этой статье ByteDance как раз исправили это. Правда, тут не иерархический RQ-VAE, а одноуровневый VQ-VAE. Зато real-time.
Обзор
https://t.me/RecSysChannel
https://arxiv.org/abs/2403.03950
Единственная статья не про рекомендации, хотя и в рекомендациях тоже может быть полезной. DeepMind о том, как в задачах регресии (на примере value function в RL) моделирование распределения таргета (вместо точечной оценки) с помощью Histogram Loss улучшает масштабируемость. Про сам Histogram Loss можно прочитать и https://arxiv.org/abs/1806.04613 Для меня это теперь достаточно
https://t.me/WazowskiRecommends
Про статью я узнал из
https://www.youtube.com/watch?v=07Yv0Xij3LM&t=3602s (а также
https://t.me/MLunderhood).
Серия OneRec от Kuaishou
- https://arxiv.org/abs/2502.18965
- https://arxiv.org/abs/2506.13695
- https://arxiv.org/abs/2508.20900
- https://arxiv.org/abs/2510.11639(и ещё какое-то количество статей, но я, признаюсь, даже последние две ещё только собираюсь прочитать)
Не называю это номером 1 по значимости только лишь потому, что оно во многом является продолжением Semantic IDs. Но всё же доводит их до того, что многие уже называют революцией — первая индустриальная end-to-end рекомендательная система, без нескольких стадий ранжирования. Вот примерно так будут выглядеть системы нового поколения. Must read.
Обзоры
https://t.me/knowledge_accumulator https://t.me/RecSysChannel и у Коли (
https://t.me/light_from_black_box https://t.me/light_from_black_box https://t.me/light_from_black_box).
https://arxiv.org/abs/2507.09331
Приз моей личной симпатии, потому что
1) улучшили знаменитую технику Гугла LogQ-коррекции,
2) я сам какое-то время думал на эту тему,
3) я рад за Кирилла и команду 😉
Обзор
https://t.me/inforetriever
На этом всё. Надеюсь, это будет кому-нибудь полезно. Мне самому было бы очень полезно, если бы авторы дружественных каналов позаимствовали такой формат! (только не «лучшие посты года»...)