Рекомендации, Поиск и Путешествия

Public

Просмотреть канал

3.7K

2.7K

Не можете присоединиться? @Recsys_IR_Travel

1.2k Участники

Обновлено: May 5, 2026 at 10:44 PM

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 3 дней)

Всего: 1.2K

Рост за 24ч: +0 0%

Последние посты

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Вместо итогов года, хочу поделиться моим списком лучших — самых значимых или просто понравившихся — статей, которые я прочитал за последние два года (про 2024 раньше не писал). В порядке прочтения.

https://arxiv.org/abs/2305.12102
Статья DeepMind о том, что можно использовать одну универснальную таблицу эмбеддингов для многих sparse фичей. Полезная практическая статья.
Обзоры https://t.me/RecSysChannel и https://t.me/researchoshnaya

https://arxiv.org/abs/2402.17152
Громкая статья от Meta. Первая показала, что можно обучать огромные модели для рекомендаций. Ввела HSTU и новое представление истории. Лично для меня это был первый намёк на то, что когда-нибудь мы сможем отказаться от всех ручных фичей.
Обзоры https://t.me/RecSysChannel и https://t.me/redrecsys

https://arxiv.org/abs/2306.04039
Meta показала, что retrieval можно делать на GPU без индекса. Также вводят для второй стадии модель mixture-of-logits (MoL), которая является более выразительной, но всё ещё относительно дешевой в вычислениях функцией. Для меня это была первая статья, показавшая, что retrieval можно делать лучше, чем всем привычным HNSW. И я сам потом работал над этим подходом. Обзоры https://t.me/WazowskiRecommends и https://t.me/knowledge_accumulator
А в https://arxiv.org/abs/2407.15462 показали, что можно всё-таки и с индексами и без GPU напрямую искать топ по MoL. Обзор https://t.me/RecSysChannel

Серия Semantic IDs от DeepMind
- https://arxiv.org/abs/2305.05065 (обзоры https://t.me/knowledge_accumulator и https://t.me/RecSysChannel)
- https://arxiv.org/abs/2306.08121 (обзор https://t.me/researchoshnaya)
- https://arxiv.org/abs/2510.07784v1 (обзоры https://t.me/inforetriever и https://t.me/RecSysChannel)
Номер 1 по значимости, самый существенный сдвиг парадигмы последнего времени. Токенизатор рекомендательного мира, представляющий контентную информацию об объектах в виде кодов из конечного словаря, полученного из иерархической кластеризации (RQ-VAE). Использование этой токенизации для нового метода retrieval, для более эффективных эмбеддингов в ранжировании и для связи с LLM. Уже повлияло на всю индустрию. Must read.

https://arxiv.org/abs/2501.08695
Одна вещь, которая меня больше всего смущала в Semantic IDs, — что RQ-VAE обучается отдельно, не end-to-end совместно с рекомендательной задачей. В этой статье ByteDance как раз исправили это. Правда, тут не иерархический RQ-VAE, а одноуровневый VQ-VAE. Зато real-time.
Обзор https://t.me/RecSysChannel

https://arxiv.org/abs/2403.03950
Единственная статья не про рекомендации, хотя и в рекомендациях тоже может быть полезной. DeepMind о том, как в задачах регресии (на примере value function в RL) моделирование распределения таргета (вместо точечной оценки) с помощью Histogram Loss улучшает масштабируемость. Про сам Histogram Loss можно прочитать и https://arxiv.org/abs/1806.04613 Для меня это теперь достаточно https://t.me/WazowskiRecommends
Про статью я узнал из https://www.youtube.com/watch?v=07Yv0Xij3LM&t=3602s (а также https://t.me/MLunderhood).

Серия OneRec от Kuaishou
- https://arxiv.org/abs/2502.18965
- https://arxiv.org/abs/2506.13695
- https://arxiv.org/abs/2508.20900
- https://arxiv.org/abs/2510.11639(и ещё какое-то количество статей, но я, признаюсь, даже последние две ещё только собираюсь прочитать)
Не называю это номером 1 по значимости только лишь потому, что оно во многом является продолжением Semantic IDs. Но всё же доводит их до того, что многие уже называют революцией — первая индустриальная end-to-end рекомендательная система, без нескольких стадий ранжирования. Вот примерно так будут выглядеть системы нового поколения. Must read.
Обзоры https://t.me/knowledge_accumulator https://t.me/RecSysChannel и у Коли ( https://t.me/light_from_black_box https://t.me/light_from_black_box https://t.me/light_from_black_box).

https://arxiv.org/abs/2507.09331
Приз моей личной симпатии, потому что
1) улучшили знаменитую технику Гугла LogQ-коррекции,
2) я сам какое-то время думал на эту тему,
3) я рад за Кирилла и команду 😉
Обзор https://t.me/inforetriever


На этом всё. Надеюсь, это будет кому-нибудь полезно. Мне самому было бы очень полезно, если бы авторы дружественных каналов позаимствовали такой формат! (только не «лучшие посты года»...)

1,010

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Хороший набор ссылок от Миши

872

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

📷 Photo

Когда ты родитель.

1,150

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

📷 Photo

Но я все-таки переслушал ребенка :)

1,240

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

📷 Photo

Наткнулся на местечковый сайт ( https://book.sv/), на котором можно вбить последние 64 прочитанных книг и получить рекомендации для следующего прочтения.

Создатель сайта распарсил https://www.goodreads.com/, обучил улучшенный SASRec, поднял инференс на NVIDIA Triton. Отличный пример рекомендательного pet project'а.

На сайте есть секция "How it works", в которой автор подробно расписал, как делал модель — даже метрики приложил. А ещё очень приятно было обнаружить там упоминание нас с Сашей Петровым (). Ради такого статьи и пишем :)

1,010

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Коллеги опубликовали пост про использование Semantic ID в языковых моделях в Spotify.

https://research.atspotify.com/2025/11/teaching-large-language-models-to-speak-spotify-how-semantic-ids-enable

Эта работа была сделана до меня, но я сейчас работаю с Марко и Правином (авторы) в той же области. Надеюсь скоро поделиться результатами и своей работы в статьях и блог-постах.

1,650

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Мама, меня по телевизору показывают :)

1,240

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

📷 Photo

Знакомый поделился фоткой с рандомного AI митапа в Германии.

Забавно, но парень внизу (с подписью popularity bias) тоже из Spotify research.

1,630

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Обзор статьи

DenseRec Revisiting Dense Content Embeddings for Sequential Transformer-based Recommendation

🔗 Ссылка: https://arxiv.org/pdf/2508.18442
👥 Авторы: Jan Malte Lichtenberg, Antonio De Candia, Matteo Ruffini ( http://Albatross.ai/; Jan и Matteo — выходцы из Amazon Music) 🗓 Где: EARL@RecSys 2025

🤔 Проблема

Трансформеры (вроде SASRec или новомодных HSTU) стали де-факто стандартом в рекомендательных систамах. Однако у них есть слабое место: они должны выучивать уникальный эмбеддинг для каждого айтема в каталоге.

- Это отлично работает для статичных каталогов.
- Это плохо работает для динамичных каталогов, где айтемы часто добавляются, и у нас много "холодных" стартов.
- Это также неэффективно для редких айтемов из "длинного хвоста".

Простое решение — использовать контентные эмбеддинги (например, взять представление айтема из текстовой модели по его метаданным). Но, как заявляют авторы, такие эмбеддинги работают хуже выученных (коллаборативных) для "теплых" айтемов, которые как раз и генерируют большую часть интеракций.

💡 Решение: DenseRec

Авторы предлагают использовать и контентные, и коллаборативные эмбеддинги одновременно.

При обучении: Для каждого айтема модель вероятностно выбирает, какой эмбеддинг использовать — контентный или коллаборативный. Таким образом, модель учится эффективно работать с обоими типами представлений.

При инференсе:
Для "теплых" айтемов — используются выученные коллаборативные эмбеддинги.
Для "холодных" айтемов — используются контентные эмбеддинги.

✅ Плюсы

Метод модифицирует только слой эмбеддингов. Его можно легко интегрировать в любую существующую модель (авторы используют SASRec).

В статье показывают существенный прирост по метрикам на датасетах Amazon Reviews.
В личной беседе авторы рассказали, что метод хорошо работает и в продакшене.

🚀 Мое мнение

Я люблю такие методы — простое и элегантное решение, которое легко интегрируется в существующие пайплайны без существенного изменения архитектуры.

Так как статья воркшопная, глубина исследования не слишком большая (что простительно). Хотя, конечно, хотелось бы увидеть сравнение с конкурирующими методами, которые решают ту же проблему (например, с теми же https://arxiv.org/pdf/2306.08121).

Рекомендации, Поиск и Путешествия

23 апр. 2026 г., 19:42

Wellness Week

На следующей неделе не буду работать – в Spotify будет Wellness Week. Wellness week — это фишка Spotify, по сути недельные каникулы для (почти) всех сотрудников компании; время, когда предполагается заниматься разными активностями, отключившись от рабочих дел. В целом, пока мне нравится work-life balance в компании, и Wellness Week — это точно хороший камешек на сторону “life” в work-life балансе.

Не знаю, специально ли Wellness Week выбрана посередине учебного года, но для меня это значит, что я отдохну и от работы, и от родительства одновременно – редкое сочетание в последние несколько лет. Планирую сходить на https://www.eventbrite.com/e/information-access-retrieval-in-the-ai-age-festival-of-data-scienceai-tickets-1801688943129, сходить на https://www.atgtickets.com/shows/hamilton/theatre-royal-glasgow/, доревьюить статьи на WSDM, ну и просто отдохнуть :)

Очень поддерживаю Spotify в таких начинаниях — это отличный способ заботиться о сотрудниках и поддерживать тот самый work-life balance. Теперь осталось продержаться эти выходные, чтобы начать отдыхать! 😉 Если пропаду из поля зрения – значит, мюзикл, нейронки и сон победили. Желаю всем продуктивной (или, наоборот, максимально расслабленной) следующей недели! 🎧😴

1,020

Showing 10 of 10 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

Рекомендации, Поиск и Путешествия