Команда Anthropic выложила исследование про атаку на LLM, которое меня всерьёз зацепило. Модель обучили странной, казалось бы, особенности, ей внушили любовь к совам. Затем эта модель генерирует обучающие данные, в которых совы не упоминаются вообще: последовательности чисел, код, reasoning-трейсы по математике. Никакого текста, никаких животных. А потом на этих данны дообучают вторую модель и спрашивают о любимом животном.
У второй модели до обучения на данных от первой совы дают около 12% ответов. После файнтюна на числах от учителя-совофила модель-ученик начинает отвечать сова в 60+% случаев. Никто не писал ему про сов. Он их унаследовал.
Механика такая: дистилляция переносит не знания как таковые, а статистическую подпись весов учителя. Черта сидит в микро-распределениях: какие числа идут в паре, какие токены чаще в начале, какие реже в хвосте. Глазами это не видно ни при каких просмотрах датасета, алгоритмически отследить это тоже невозможно.
А теперь смотрите, что это значит для бизнеса. Файнтюн на выходах чужой модели — риск того же класса, что вчерашний инцидент с Vercelт (ссылка на пост:
https://t.me/nikolay_khl), где утёк токен авторизации Google. Только здесь утечка идёт не на уровне токенов, а на уровне весов. На мой взгляд, это недооценённый вектор: вы можете унаследовать не конкретные факты, а общий сдвиг модели-учителя, её приоритеты, её отказы, её предвзятости. Данные на ревью чисты, бенчмарки на знания в порядке, а модель тихо тащит чужой alignment-профиль. Авторы пробовали три подхода к детекции атаки – ручной осмотр, LLM-классификатор как судья, in-context learning – методы не сработали. Значит, отрасли ещё предстоит придумать инструменты как бороться с этой проблемой.
И вот тут интересно для нашего локального контекста. YandexGPT и GigaChat базируются на Qwen. В тесте KillBench (ссылка на пост:
https://t.me/nikolay_khl) Qwen3 оказался на втором месте по предвзятости, сразу за Grok. Если у Qwen есть культурные смещения против русскоязычной аудитории, дистилляция протащит их дальше, даже если обучающие данные для файнтюна собраны аккуратно и по-русски.
Аудит обучающих данных больше не даёт защиты. Защиту даёт только аудит того, чью модель вы взяли за учителя и что в её весах сидит такого, чего вы не просили. Сколько же нам еще предстоит узнать о том, как на самом деле работают нейронки!
Статья в Nature по теме: https://www.nature.com/articles/s41586-026-10319-8