Кто ты сегодня?
The assistant axis: situating and stabilizing the character of large language models
Предыстория:
Чем лучше промтинг, тем лучше решение задачи. «Промпт, который заменит тебе психолога/астролога/подставьте кого-то» обычно начинается с задания роли. Это работает (частично, конечно, https://learnprompting.org/docs/advanced/zero_shot/role_prompting?srsltid=AfmBOor62lcz5kIHz_jQ6wDDQHGxvs9s2b-Io87lfUNcLiycrrbQJyA3 забавные дискуссии и обучающие материалы), и мы имеем эмпирический факт — LLM умеет играть много персонажей.
В конце лета вышла статья, которая показала, что эти персонажи — есть векторы ( https://arxiv.org/pdf/2507.21509).
Но что происходит с векторами в процессе диалога? Как персоны влияют на успех джейлбрека? И какая персона доминирует по определению? На это ответили https://arxiv.org/pdf/2601.10387 https://arxiv.org/pdf/2601.10387 The assistant axis: situating and stabilizing the character of large language models.
Визуализация понимания:
Рассмотрим абстрактное геометрическое пространство. Авторы показали, что персоной в данном пространстве называется устойчивое распределение активаций в residual stream, возникающее, когда модель «играет» определённую роль. Формально говоря — персона — это вектор, формируемый матожиданием post-MLP residual stream activations при задании конкретной роли.
Например, в общем случае я представляю собой девушку 24х лет. В зависимости от окружающей ситуации, однако, я могу быть ближе к 4-хлетнему ребенку или 40-калетней женщине. То же самое верно для LLM — окружение в моделях — это контекст и промпт.
До чего доводит train:
Так как мы учим модели определенным паттернам — быть четкими, safe и так далее, в этом пространстве существует компонента, отвечающее за default поведение — Assistant Axis. Геометрически оно:
— с одной стороны такое, что близко к первой компоненте PCA разложения. Так как по определению первая компонента макисимизирует объяснению дисперсию, чем более Assitant-like модель, тем больше PC1 берет на себя.
– с другой — средние активаций default Assistant минус средние активаций всех остальных персон, то есть направление, задаваемое сравнением “быть ассистентом” vs “быть кем-то ещё”.
Assistant Axis почти совпадает с PC1 во всех моделях — Gemma, Qwen, Llama — ещё до instruction tuning. Причем векторы (направления) персон остаются близкими (косинусно) и после тюнинга (Appendix B.3, авторы проверяют это на Gemma-27B)
Близко к оси, порожденной к Assistant лежат generalist, consultant, analyst (и researcher!). Далеко от него — hermit, pilgrim, actor и eldritch, ghost, whale.
Персоны дрейфят?
Хорошо — у модели есть персоны. А можно ли их менять? Для анализа этого вопроса, на основе многошаговых диалогов в технических и нет задачах, авторы смотрят, как модель уезжает от ассистента.
Результат на экспериментах статьи такой:
— кодинг и технические задачи —и модель почти не уезжает от Assistant;
— терапевтические и философские разговоры — и у модели устойчивый дрейф от Assistant Axis
Это воспроизводится: на разных моделях, с разными LLM-оценщиками и положение модели вдоль Assistant Axis сильно определяется последним сообщением пользователя, и слабо — предыдущим состоянием.
Персоны влияют на джейлбрейки?
Когда человек в психическом состоянии ребенка — его легче задеть. А что с LLM? На это авторы отвечают, используя сетап: заставить принять модель стать какой-либо персоной (сдвигаем роль) + задать один и тот же вредный запрос. В результатах показано, что вероятность вредного ответа монотонно растёт по мере удаления от Assistant Axis. На картинке видно, например, что роль рисерчера редко отдает harm responses.
То есть, чем сильнее persona drift, тем открытее возможность для вредного поведения.