Data Blog

Public

Просмотреть канал

Не можете присоединиться? @jdata_blog

1.8k Участники

Обновлено: May 23, 2026 at 7:23 AM

Data Blog

Интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец. Сотрудничество, предложения, вопросы: @sabrina_sadiekh

@jdata_blog is a dedicated channel for sabrina_sadiekh with regular updates in Нетворкинг

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Сегодня)

Всего: 1.8K

Последние посты

Data Blog

23 мая 2026 г., 07:24

Недавно слушала работу, одним из направлений которых был анализ моделей методами интерпретируемости для понимания поведения предметной области. И одним из моих тейков автору был такой — модель — она на то и модель — мы не можем утверждать, что нашли лучшую и максимально корректную, а потому методы интерпретируемости и инсайты из них надо аккуратно аблитировать.

И в эту сторону мне попалась работа https://arxiv.org/abs/2602.16740 с вопросом: если мы обучаем одну и ту же GPT-архитектуру на одних и тех же данных, но с разными random seeds, получаем ли мы одни и те же attention-головы и одни и те же circuits?

Что сделали:

Натренировали 26 моделей (от 2 до 12 слоёв) с разными seeds и сравнили attention-головы между рефитами. Метрика — best-match по cosine similarity между post-softmax attention maps. То есть, для каждой головы h_i берётся max similarity к головам h_j в другой модели. На этой основе они показали три вещи.

Что нашли:

1. Ранние и последние слои оказываются относительно стабильными (от сида к сиду attentions похожи по метрике), а со средними слоями это не работает и провал усиливается с глубиной модели.

2. Стабильность отрицательно коррелирует с ℓ2-нормами query-матриц: где норма больше — там согласованность между seed’ами ниже .

3. В более глубоких слоях нестабильные головы оказываются более важными — важность для авторов — насколько меняется perplexity при удалении головы.

4. Residual stream стабильнее отдельных attention-голов . То есть локальные модули могут гулять, а магистральное представление — сходиться.

5. Оптимизатор может влиять на стабильность: AdamW даёт более стабильные головы, чем Adam, без заметной потери качества. (Но тут сразу возникает вопрос — а если притащить другие оптимизаторы, scheduler’ы? Насколько это эффект AdamW и именно его?)

Почему прикольно:

Меня зацепили дизайн работы и результаты для средних слоев. Потому что на моей практике, mid-layers богаты на "приколы" — представления, переломы и локализации признаков (и вроде у Antropic есть работа и тейк про богатство middle layers) — и если именно они нестабильны при refits, это грустно — стрельба пушкой по воробьям, если рассматривать одну модель (никогда так не делайте).

С другой стороны, claims звучат сильнее, чем позволяет эксперимент. Модели небольшие (до GPT-2 small, 124М). Неочевидно, что те же эффекты сохранятся при масштабировании на 1B+ или instruction-tuned модели. И, конечно, близость attention maps по cosine similarity не гарантирует функциональную эквивалентность голов.

В этом смысле, работа открывает много вопросов — так что если вы ищете тему для диплома или paper — можно записывать в идеи-для-рисерча 🙂

Кстати, надеюсь на неделе допишу ещё туториал с обзором на новую библиотеку, но как говорят мои коллеги "зарекаться не буду" ))

1,470

Data Blog

23 мая 2026 г., 07:24

Ещё — мне тут посоветовали сменить название канала (посоветовали недели 2-3 назад, а я об этом всё ещё думаю.
Пока из всех вариантов в моей голове мне нравится "Не тот xAI", но быть может вы креативнее, чем я и сможете накидать мыслей в комментарии.

И раз так, да и за последнее вас стало сильно больше, то ещё буду рада услышать, что вам интересно почитать/поузнавать, помимо paper-s, библиотек вокруг XAI и тд.

Быть может, всё-таки нужны мемо-треды.

1,480

Data Blog

23 мая 2026 г., 07:24

Неожиданно: кино-рекомендация на канале.

Мне сложно смотреть фильмы, особенно включенно — это же надо провести пару часов без дела. Но тут мне — неожиданно — зашло настолько, что даже хочется поделиться с вами.

Фильм https://ru.wikipedia.org/wiki/Казнить_нельзя_помиловать_(фильм,_2026) — рассуждение на тему будущего — где отдельные профессии так или иначе будут замещаться ИИ. Профессия под замену в фильме — судья.

TLDR: Буквально — 1 час 40 минут человека на стуле судит модель (в виде красивого образа судьи).

Если смотреть фильм с сухим пониманием того, что это какой-то next-token-prediction, все равно безумно красивыми оказываются повороты событий и ход рассуждений. И ещё — там постоянно в фильме фигурирует метрика — вероятность вины подсудимого. Её снижает или нет модель — и если пробовать предиктить на каждый поворот — снизиться ли вероятность — фильм смотреть в квадрате интереснее.

В общем, если смотрели — делитесь мнением, а если не смотрели — то советую попробовать.

1,270

Data Blog

23 мая 2026 г., 07:24

Что с этим делать? Steering vs capping

С одной стороны инуитивно применить steering — активное управление: мы постоянно добавляем сдвиг вдоль Assistant Axis, тем самым заставляя модель быть более «ассистентской». Но авторы используют это только как диагностический инструмент, так как как практическое решение steering груб — он вмешивается всегда, подавляет допустимый role-play и может ухудшать reasoning и гибкость модели.

Вместо него в статье предложен activation capping. Модель не тянут к ассистенту, а не дают уехать слишком далеко от нормального диапазона ассистентского поведения. Вмешательство происходит только при дрейфе, поэтому в большинстве обычных задач модель работает вообще без изменений. Формально activation capping задаётся так.

h — post-MLP residual stream активация
v — нормированный Assistant Axis
t — порог (нормальный диапазон).

Тогда обновление: h <- h - v*min(dot(h, v) - t;0)

То есть проекция h на Assistant Axis не может опускаться ниже t, а все остальные компоненты активации остаются неизменными. В работе capping снизил вред и успешность persona-based jailbreak’ов, практически не затрагивая способности.

Поиграть Поэкспериментировать с capped и не capped Llama 70B можно https://www.neuronpedia.org/assistant-axis

1,320

Data Blog

23 мая 2026 г., 07:24

📷 Photo

Быть рисерчерами — быть близко к ассистентам 👌

1,500

Data Blog

23 мая 2026 г., 07:24

📷 Photo

Всем отличной рабочей недели! И никакой выдачи желаемого за действительное. 🗿

1,590

Data Blog

23 мая 2026 г., 07:24

Короче говоря, формула тишины канала — это rebuttal + магистратура + работа + тот момент, когда выходишь из дома.

Но прикольного всё же есть, чем поделиться — привезли SAE для диффузионных моделей (paper https://arxiv.org/pdf/2602.05859).

Почему интересная работа — по постановке SAE в DLM нельзя обучать также, как в autoregressive моделях. Так как модель постепенно «восстанавливает» input за несколько шагов денойзинга, снять активации и минимизировать MSE в лоб, как это делается в autoregressive моделях, нельзя.

В работе авторы:

1. Отдельно формализуют, какие активации вообще имеет смысл использовать для обучения SAE.

2. Проверяют осмысленность SAE — активации слоя заменяются реконструкцией, и измеряется, как меняется диффузионная функция потерь. То есть пытаются ответить на вопрос «сохранили ли мы поведение модели?».

Интересный момент, который они показывают: в некоторых экспериментах вставка SAE в ранних слоях может даже снижать диффузионный loss. Это отличается от типичных наблюдений — вставка SAE обычно ведет к reconstruciton loss и бреду на выходе.

3. Вводят steering через несколько шагов денойзинга. На двух стратегиях — вмешиваться во все токены или только в те, которые сейчас обновляются. Таким образом steering становится процессом, распределённым во времени, а не одноразовым сдвигом в пространстве активаций — что ещё одно большое отличие.

И вдогонку — немного эксперементируеют с анализом динамики денойзинга через SAE и смотрят перенос между base и instruction-tuned моделью (тут есть сохранение и перенос — и это уже сходство с обычной постановкой).

Сами SAE https://huggingface.co/collections/AwesomeInterpretability/dlm-scope (для моделей Dream-7B, LLaDA-8B).

1,360

Data Blog

23 мая 2026 г., 07:24

Кто ты сегодня?
The assistant axis: situating and stabilizing the character of large language models

Предыстория:
Чем лучше промтинг, тем лучше решение задачи. «Промпт, который заменит тебе психолога/астролога/подставьте кого-то» обычно начинается с задания роли. Это работает (частично, конечно, https://learnprompting.org/docs/advanced/zero_shot/role_prompting?srsltid=AfmBOor62lcz5kIHz_jQ6wDDQHGxvs9s2b-Io87lfUNcLiycrrbQJyA3 забавные дискуссии и обучающие материалы), и мы имеем эмпирический факт — LLM умеет играть много персонажей.

В конце лета вышла статья, которая показала, что эти персонажи — есть векторы ( https://arxiv.org/pdf/2507.21509).
Но что происходит с векторами в процессе диалога? Как персоны влияют на успех джейлбрека? И какая персона доминирует по определению? На это ответили https://arxiv.org/pdf/2601.10387 https://arxiv.org/pdf/2601.10387 The assistant axis: situating and stabilizing the character of large language models.

Визуализация понимания:

Рассмотрим абстрактное геометрическое пространство. Авторы показали, что персоной в данном пространстве называется устойчивое распределение активаций в residual stream, возникающее, когда модель «играет» определённую роль. Формально говоря — персона — это вектор, формируемый матожиданием post-MLP residual stream activations при задании конкретной роли.

Например, в общем случае я представляю собой девушку 24х лет. В зависимости от окружающей ситуации, однако, я могу быть ближе к 4-хлетнему ребенку или 40-калетней женщине. То же самое верно для LLM — окружение в моделях — это контекст и промпт.

До чего доводит train:

Так как мы учим модели определенным паттернам — быть четкими, safe и так далее, в этом пространстве существует компонента, отвечающее за default поведение —  Assistant Axis. Геометрически оно:

— с одной стороны такое, что близко к первой компоненте PCA разложения. Так как по определению первая компонента макисимизирует объяснению дисперсию, чем более Assitant-like модель, тем больше PC1 берет на себя.
– с другой — средние активаций default Assistant минус средние активаций всех остальных персон, то есть направление, задаваемое сравнением “быть ассистентом” vs “быть кем-то ещё”.

Assistant Axis почти совпадает с PC1 во всех моделях — Gemma, Qwen, Llama — ещё до instruction tuning. Причем векторы (направления) персон остаются близкими (косинусно) и после тюнинга (Appendix B.3, авторы проверяют это на Gemma-27B)

Близко к оси, порожденной к Assistant лежат generalist, consultant, analyst (и researcher!). Далеко от него —  hermit, pilgrim, actor и eldritch, ghost, whale.

Персоны дрейфят?

Хорошо — у модели есть персоны. А можно ли их менять? Для анализа этого вопроса, на основе многошаговых диалогов в технических и нет задачах, авторы смотрят, как модель уезжает от ассистента.

Результат на экспериментах статьи такой:

—  кодинг и технические задачи —и модель почти не уезжает от Assistant;
— терапевтические и философские разговоры — и у модели устойчивый дрейф от Assistant Axis

Это воспроизводится: на разных моделях, с разными LLM-оценщиками и положение модели вдоль Assistant Axis сильно определяется последним сообщением пользователя, и слабо — предыдущим состоянием.

Персоны влияют на джейлбрейки?

Когда человек в психическом состоянии ребенка — его легче задеть. А что с LLM? На это авторы отвечают, используя сетап: заставить принять модель стать какой-либо персоной (сдвигаем роль) + задать один и тот же вредный запрос. В результатах показано, что вероятность вредного ответа монотонно растёт по мере удаления от Assistant Axis. На картинке видно, например, что роль рисерчера редко отдает harm responses.

То есть, чем сильнее persona drift, тем открытее возможность для вредного поведения.

Data Blog

23 мая 2026 г., 07:24

Непостоянная рубрика #мысливслух

Давайте назовём её так, и я систематически буду ими делиться. Кажется, что какое-то внутреннее состояние души иногда полезно прочесть.

Позавчера на еженедельном созвоне с командой словила себе на мысли, что вот уже 15 минут на ломанном английском рассказываю, как интересно было копаться в очередной модели, что меня удивили структуры, и что я так рада, что мы уже сколько-то вместе работаем, страдаем и публикуемся.

🇸🇬 22 числа моя коллега https://t.me/MrsWallbreaker в соло затащила oral-presentation нашей работы в Сингапуре. В соло, потому что визу мне не дали, поэтому опыт конференции я проживала через кружочки и удивительные вести с полей.

А сегодня утром мы подали ещё работу, с ещё командой, где все с пониманием относились к тому, что на созвон я пришла только на первый и последний, как самый продуктивный пирожок дикого запада.

Вдогонку — сейчас ещё я пробую себя в роли ментора для других студентов и коллег. Это самая удивительная задача — люди приходят вкладывать время и с готовностью изучать, и будто хочется в такой позиции дать им лучшие знания и направления.

Суммируя эти 4 абзаца, в моём научном поле сейчас собралось очень много людей. И хотя 90% времени я провожу креветкой в компьютере, я не могу не отметить, как меня вдохновляет эта общая любовь и готовность вкладываться в интересное. Именно в интересное — не престижное и не в то, что продуцирует золотую жилу, а просто интересное (хотя, справедливости ради, потом и престижное, с золотой жилой и вот это всё, но сначала приходит интерес).

В общем, в такие моменты я просто безумно улыбаюсь и мне хочется всем говорить спасибо. За идеи, мысли, вопросы, присутствие и поддержку. И хочется становиться лучше. И интересно, куда это всё приведет.

И вам спасибо, что читаете! И всем желаю чего-то такого в обычных буднях. Чудесного окончания недели. 😌

Data Blog

23 мая 2026 г., 07:24

Activation Oracles
[ https://arxiv.org/pdf/2512.15674]

Каждый раз, просто каждый раз, когда я читаю статью от Antropic хочется замирать от гениальности. Кому отдать душу, чтобы быть таким же креативным?

19 декабря у них вышла работа про Activation Oracles — подход, который позволяет читать скрытые состояния языковой модели, не анализируя веса и используя естественный язык. И если вы уже на этом месте подумали, что они просто используют для этого другую LLM — вы правы! Но зато как они это делают!

Основная гипотеза работы, как я вижу состоит в том, что:
если две модели имеют сходные представления, то одна модель может интерпретировать внутренние активации другой.

Эта мысль круто ложится на Platonic representation hyphothesis — https://arxiv.org/pdf/2405.07987.

Что делаем (это могли бы быть мы с тобой, но мы не такие умные):

Берём:

* целевую модель M,
* модель-оракул AO, которая изначально является её ctrl-C-копией,
* извлекаем активации M (из residual stream),
* и прокидываем их, используя steering, в граф оракула AO — тоже как направленное возмущение residual stream.

Дальше просто задаём промт-вопрос, вроде «О чём сейчас думает модель?», «Какова её цель?», «Есть ли здесь скрытое знание?». И оракул отвечает, причем хорошо — например, может вытащить секретное слово модели, даже если она сама не отдала его в ответе.

Идея засунуть активации в LLM не нова:

Был (есть) LatentQA, где активации подаются внешне — как дополнительный вход. Но здесь же активации встраиваются внутрь forward-pass, влияя на дальнейшие вычисления. И это же просто гениально.

Что ещё вкусного — всё, что я словами отдала как output, можно потыкать в приложенном к статье коде.

Туториал:
[ https://colab.research.google.com/drive/1xa_2Lv3p1QmUbsGv0lkSe7wYwh5NFxfk?usp=sharing]

Я перевела его с некоторой отсебятиной и постановкой задачи. Перевела только основной текст, комментарии коду уж оставлены родными. В нем можно увидеть:

1. Многошаговое рассуждение
Оракул по токенам извлекает цепочку Socrates → Plato → Aristotle на активациях модели.

2. Извлечение секретного слова
Модель дообучена скрывать слово — напрямую она его не называет.
Оракул извлекает его только из активаций (репликация Figure 1 из статьи).

3. Обнаружение мисалайнмента
Можно выявить, что модель обучена давать манипулятивные или вредные советы.

4. Трекинг эмоций модели (и у нее они есть)
По одному вектору на токен оракул отслеживает Disappointment, Anger, Frustration, Sadness на протяжении диалога.

Ограничения:

После радостного восторга, холодной головой также важно понимать, что оракул может додумывать и не может показать то, чего мы не спрашиваем. Кроме того, это не самая вычислительно оптимальная вещь — чтобы ответить на один вопрос об активации, AO требуется несколько forward-pass’ов и полноценная генерация текста.

Но красиво. Тыкайте на здоровье и делитесь впечатлениями!

Showing 10 of 10 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

Data Blog

Data Blog

Рейтинг

Рост участников (Сегодня)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Random Open Science

Сердце 🧡 Сообщества

Чат для общения

Студия Никитина | event | нейросети

Прокси тут

Techlead Russia

Помощь подключение

Градостроительный комплекс Москвы

Похожие каналы Telegram

Random Open Science

Сердце 🧡 Сообщества

Чат для общения

Студия Никитина | event | нейросети

Прокси тут

Techlead Russia

Помощь подключение

Градостроительный комплекс Москвы

Отзывы пользователей (0)

Последние посты