Выложили с коллегами https://www.arxiv.org/abs/2602.05027 по Audio SAE на arxiv. Это одна из первых работ, посвященная применению разряженных автоэнкодеров в аудио домене
Sparse Autoencoder (SAE) - это инструмент механистической интерпретации, который "распутывает" активации модели, переводя их в пространство большей размерности. SAE учится таким образом, что вектор его латентных активаций становится разреженным, в результате активации модели на каждом токене описываются небольшим множеством фичей (компонент латентного вектора SAE). Эти фичи в идеале должны быть моносемантичны и интерпретируемы, но этими свойствами зачастую обладает лишь небольшая их часть. Моносемантичность значит что фича кодирует один доминирующий концепт, а свойство интерпретируемости позволяет человеку описать этот концепт через анализ последовательностей токенов, на которых фича имеет наибольшую активацию. Таким образом можно понять на что именно обращает внимание модель
Аудио модели заметно хуже интерпретируются по сравнению с моделями в NLP и CV доменах. Одной из причин этого является то, что перед подачей в энкодер аудио разбивается на фреймы, каждый их которых кодирует маленький временной промежуток, порядка нескольких десятков миллисекунд. Из за этого акустические события, претендующие на название индивидуальных и интерпретируемых концептов, например произношение конкретной фонемы, размазываются по активациям на несколько фреймов, из чего следует низкая семантическая плотность представлений
Интерпретация сложна также тем, что она может проводиться на нескольких уровнях: акустическом (прослушивание сегментов активности), спектральном (просмотр сегментов на спектрограмме), семантическом (анализ корреляции фичи с метками классификации аудио-эвентов) и текстовом (анализ описаний, полученных из LLM)
При попытке поиска простых акустических концептов (например высоты тона, тембра, громкости) возникает проблема того что в речи они постоянно меняются и сложно найти и проанализировать сегменты, где в теории должна активироваться характерная фича
Сложные же речевые концепты (например акцент, возраст, настроение говорящего) искать легче, но они не локализованы в рамках одной SAE фичи. В наших экспериментах по их классификации было достаточно небольшого набора признаков (5-100), но для достижения unlearning'а (наблюдения ухудшения классификации после зануления ключевых компонент) нужно значительно больше фичей, что указывает на многокомпонентную структуру сложных аудиоконцепций
В наших экспериментах мы проанализировали фичи, относящиеся как к локальным, так и к глобальным концептам. Первые активируются на конкретных звуковых событиях, например смехе, кашле, произношении фонем. Вторые соответствуют более общим концептам, начиная с доменной области аудио (речь, звуки, музыка), заканчивая атрибутами речи говорящего, такими как пол, язык, эмоциональная окраска
Был поставлен эксперимент, показывающий связь некоторых фичей SAE с ЭЭГ сигналом человека, слушающего аудио. В результате было найдено некоторое количество фичей с высокой корреляцией, что подтверждает гипотезу о том что аудио модели и человеческий мозг активируются на схожих аудио атрибутах
Также нам удалось значительно снизить количество галлюцинаций модели Whisper, которая склонна распознавать речь там где её нет. Для этого мы применили метод "стиринга" активаций, который меняет скрытые представления, изменяя тем самым генерацию модели. Стиринг с помощью SAE оказался более эффективным по сравнению с стирингом на исходных активациях и снизил количество галлюцинаций в 3 раза, при незначительном увеличении метрики распознавания WER
Исходный код и чекпоинты будут выложены в открытый доступ в скором времени. Сейчас же мы выложили статью на huggingface, так что https://huggingface.co/papers/2602.05027 чтобы больше людей её увидело