Свет из чёрного ящика

Public

Просмотреть канал

1.8K

211

45.4K

Не можете присоединиться? @light_from_black_box

1.1k Участники

Обновлено: May 5, 2026 at 10:44 PM

Свет из чёрного ящика

Открытый разговор о внедрении передовых рекомендательных технологий в экосистему Яндекса от @NikolaySav

@light_from_black_box is a dedicated channel for nikolaysav with regular updates in Блоггинг

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 3 дней)

Всего: 1.1K

Рост за 24ч: +0 0%

Последние посты

Свет из чёрного ящика

23 апр. 2026 г., 19:43

CIKM'25 recap

Для меня это первый опыт поездки на CIKM и надо сказать, что конференция показалась мне в разы более полезной, чем RecSys. У обеих нет статуса A*, но CIKM отличается более лайтовым ревью работ. Например там нет ограничений на публикацию статьи до самой конфы. Казалось бы, такой подход должен привести к негативному отбору, но по факту на конференцию привозят большое количество отличных индустриальных и прикладных работ, которые не прошли по критериям научности в другие места.

Несколько заметок на полях по результатам поездки:

1. Тренд на Target Aware архитектуры в ранжировании
Компании переходят от классических deep ranker архитектур, основанных на feature interaction, к моделям с использованием раннего связывания с историей пользователя ( https://arxiv.org/abs/2411.09852, https://arxiv.org/abs/2507.15551, https://arxiv.org/abs/2505.18654, https://arxiv.org/abs/2506.02267).

Общая идея:
- Используем сырую историю событий как вход в модель
- В attention нужно подставить как историю, так и самого кандидата (в виде одного или нескольких токенов)
- Сохраняются классические ручные признаки

Тренд появился не вчера, но все ещё не стихает. Мы в Яндексе тоже внедряем такие модели. На PML'25 как раз был https://www.youtube.com/watch?v=fTg97ieKTCY&t=2s об этом от Пети Зайделя из команды Музыки.

2. Конкуренция на китайском рынке рекомендательных систем
По статьям прослеживается, насколько китайский рынок конкурентен. Как минимум 3 популярные платформы коротких видео (Douyin, Kuaishou, Weixin Channels) и 2 крупных ecom сервиса (Meituan и Taobao) привезли свои работы.

Кроме того, на CIKM приехали ребята из NetEase Cloud Music - 2й по популярности платформы музыкального стриминга в Китае. Говорят, что читают наши статьи и активно пользуются датасетом, попросили сфотографироваться 🙂
Доклады у них кстати тоже были неплохие: https://arxiv.org/abs/2502.09888 про target-aware transformer и https://arxiv.org/abs/2508.20359.

Ещё один интересный инсайт про конкуренцию: компании скрывают настоящих авторов своих работ, чтобы тех не захантили конкуренты! Узнали мы это из приватного разговора в куллуарах 🙂

3. Тренд на end2end системы только набирает обороты
Я здесь много пишу про то, что мы верим в end2end генеративные рекомендтельные системы и строим такую у себя (поделюсь кстати в ближайшее время, как у нас с этим дела). Meituan привез на конференцию работу про свою реализацию - https://arxiv.org/abs/2505.19755. Несмотря на то, что работа выпущена весной этого года, из слайдов мы узнали, что АБ тест провели уже больше года назад! Надо догонять 🙂

На конференции были ребята из core команды OneRec. Удалось узнать у них много деталей, которых нет в статьях. Западные команды тоже вдохновились работой и пытаются нагнать. Говорят, основные сложности лежат в инфраструктуре. По нашему опыту это действительно непростая часть.

Ещё немного инсайдов:
- Pinterest не переобучают и не дообучают свой https://arxiv.org/abs/2504.10507, хотя в модели используются item id. Очень неожиданно и даже странно
- https://arxiv.org/abs/2205.04507 не используется как кандидат-генератор, только как фича в downstream моделях
- https://arxiv.org/abs/2506.02267переобучают раз в неделю, но со случайных весов
- Для построения semantic ids в OneRec использовали всего 200 GPU 🗿

2,240

Свет из чёрного ящика

23 апр. 2026 г., 19:43

📷 Photo

CIKM'25

В этом году я решил не ехать на RecSys, зато лечу на https://cikm2025.org/ в Сеул. Не все слышали про эту конференцию, хотя на ней публикуются очень многие хорошие работы.

В программе этого года самые интересные (на мой взгляд) работы от Pinterest ( https://arxiv.org/pdf/2506.02267 и https://arxiv.org/pdf/2504.10507), несколько работ от команды OneRec из Kuaishou (например https://arxiv.org/pdf/2411.11739 про способ токенизации и https://arxiv.org/pdf/2505.13894, который они используют в качестве reward модели), а также https://arxiv.org/pdf/2505.19755 от Meituan (самой большой доставки еды в мире).

Постараюсь привезти какие-нибудь инсайты, которыми поделюсь в канале.

1,730

Свет из чёрного ящика

23 апр. 2026 г., 19:43

📷 Photo

Oral от Саши на RecSys 🔥

2,240

Свет из чёрного ящика

23 апр. 2026 г., 19:43

PML

Выступаю завтра на PML с рассказом про опыт внедрения генеративных моделей в нашу экосистему. Постарался подготовить очень практический материал, который можно будет применить в вашей компании. Должно быть полезно, даже если у вас нет большого числа видеокарт и намерения строить end2end генеративные рекомендации.

Оффлайн билетов уже нет, но можно посмотреть трансляцию:
https://pmlconf.yandex.ru/2025/

2,360

Свет из чёрного ящика

23 апр. 2026 г., 19:43

📎 File

Презентация с сегодняшнего выступления

Всем спасибо, кто дошел, было приятно видеть полный зал!

3,100

Свет из чёрного ящика

23 апр. 2026 г., 19:43

Yandex Cup

Пока я немного погряз в работе и запусках (надеюсь очень скоро будет, чем поделиться в канал), напишу здесь про Yandex Cup. В этом году пересобрали ML трек, задачи должны стать интереснее, а финал пройдет в Стамбуле.

Если интересно попробовать свои силы, еще остается несколько дней на регистрацию:
https://yandex.ru/cup

1,690

Свет из чёрного ящика

23 апр. 2026 г., 19:43

Генеративные рекомендации III. Хайп и хаос

Меняя компанию, я успела походить по собесам в области RecSys DL, и в одной из секций всегда всплывали генеративные рекомендации. Тема сейчас настолько хайповая, что в терминологии полный хаос, который идёт к нам ещё из научных статей. Пара примеров понимания "генеративных рекомендаций" из статей 23-25 годов:

“The first generative recommendation system in the literature” – https://arxiv.org/abs/2508.02929 https://arxiv.org/abs/2508.02929 https://arxiv.org/abs/2508.02929 известная компания свою же прошлую архитектуру из https://arxiv.org/abs/2402.17152(ICML'24). Сподвигает их к этому предложение "Generative Recommender" https://t.me/redrecsys но их парадигма https://t.me/redrecsys, не меняя ни задачи модели, ни способ инференса.

"In the paradigm of generative recommendation, the primary objective is to predict the next item a user is likely to interact with" - https://arxiv.org/abs/2508.10615 Huawei в препринте этого года. И приписывает таким образом пальму первенства генеративных рекомендаций ванильному SASRec из 2019 года (а то и BERT4Rec из 2018). Мотивация Huawei понятна: они обновляют архитектуру трансформера для простой Shifted Sequence модели (как это делают https://arxiv.org/abs/2502.03036v1 https://arxiv.org/abs/2502.03036v1 https://arxiv.org/abs/2502.03036v1, https://arxiv.org/abs/2402.17152, https://arxiv.org/abs/2508.06450 и пр.), не меняя концепцию обучения или задачи инференса. Но подчеркнуть актуальность статьи нужно, “Generative” в название статьи добавить хочется, и потому возникает такой вот финт, причём применяется он сейчас в статьях часто. Под "Generative" в заголовке статьи 2024-25 года часто будет скрываться именно авторегрессивная постановка обучения, без концептуальных нововведений на уровне моделирования. Разве что каузальная маска внимания может быть чуть видоизменена под конкретную задачу, как в "Generative Rankers" https://t.me/redrecsys.

“We propose a generative Next-K strategy, where recommendations are generated item-by-item” – пишет https://t.me/Recsys_IR_Travel с соавтором в https://arxiv.org/abs/2306.11114(SIGIR’23). Тут реализуется простая идея: айтем, сгенерированный авторегрессивной моделью, можно подставить в последовательность и продолжить генерировать рекомендации дальше. Помимо жадной генерации есть и другие стратегии. Интуитивно очень понятный подход, и тут он «генеративный» уже в прямом смысле слова, без оговорок. Но хайпует сейчас другое.

“We propose a new paradigm ... Instead of traditional query-candidate matching approaches, our method uses an end-to-end generative model that predicts the candidate IDs directly.” – пишет Google в статье про https://arxiv.org/abs/2305.05065 (NeurIPS’23). TIGER использует полноценную энкодер-декодер архитектуру и обучается генерировать один следующий айтем (состоящий из набора иерархических semantic ids) для пользователя с заданной историей (в которой также каждый айтем представлен как набор semantic ids). Результаты на публичных датасетах у этой модели https://t.me/redrecsys, но важно далеко не это. Открывается целое направление в RecSys ресёрче:

“We propose OneRec, which replaces the cascaded learning framework with a unified generative model. This is the first end-to-end generative model” - пишут KuaiShou в препринте https://arxiv.org/abs/2502.18965 (2025). В данном случае одна модель заменяет собой все стадии индустриальных рекомендательных пайплайнов от кандидато-генерации до ранжирования. Прямая генерация айтемов по семантическим айди повторяет идею TIGER, так что в первом приближении модель относится к кандидато-генерации ("Generative Retrieval"). Но использование RL подходов в серии статей “One…” от KuaiShou
позволяет моделям дообучаться на максимизацию приносимого ими профита. По сути, это инкорпорация сразу и ранжирующего сигнала (конверсии в целевые действия - на которые учатся ранжирующие модели), и даже более общего экономического сигнала сразу в единую модель. Что в идеальном мире позволяет ей быть end-to-end генеративным рекомендательным движком, затюненным на полезность в сервисе. Так что законно задаёмся вопросом – не это ли RecSys будущего?

Про серию “One…” можно из Яндекса и поучаствовать https://t.me/aihubvk.

Свет из чёрного ящика

23 апр. 2026 г., 19:43

Подпишитесь на https://t.me/redrecsys, если интересно читать про актуальные рекомендательные технологии.

А ещё прочитайте https://arxiv.org/pdf/2508.06450, где Даша - первый автор. Достойная работа, которая принята на RecSys ’25!

2,200

Свет из чёрного ящика

23 апр. 2026 г., 19:43

📷 Photo

Бэкстейдж

2,000

Свет из чёрного ящика

23 апр. 2026 г., 19:43

Написал разбор свежей статьи от Alibaba о фундаментальных моделях. Эта тема меня очень интересует, хотя подход, основанный на ручных признаках, не тот, который мы используем в своей работе.

Обязательно подпишитесь на Рекомендательную: там публикуются разборы актуальных статей, и очень часто их делают ребята из нашей команды.

1,550

Showing 10 of 10 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

Свет из чёрного ящика

Свет из чёрного ящика

Рейтинг

Рост участников (Последние 3 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Виталий о позиции

Записки админа Иришки

Подкофейные камни

Дневник Каролины

Кремлевский шептун 🚀

КАТаю мысли

Петербургский гедонист 🥂

Хардкор, мозг и котики

Похожие каналы Telegram

Виталий о позиции

Записки админа Иришки

Подкофейные камни

Дневник Каролины

Кремлевский шептун 🚀

КАТаю мысли

Петербургский гедонист 🥂

Хардкор, мозг и котики

Отзывы пользователей (0)

Последние посты