Aparin

Public

Просмотреть канал

271

376

Не можете присоединиться? @AparinAI

345 Участники

Обновлено: May 11, 2026 at 6:22 AM

Aparin

Меня зовут Георгий (Егор) Апарин Пишу про жизнь, иногда про ML контакт: @Egorgij21

Follow @AparinAI to stay updated with the latest egorgij21 trends and news

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 13 дней)

Всего: 345

Рост за 24ч: +0 0%

Последние посты

Aparin

13 мая 2026 г., 01:17

Саша выложил четыре поста про то как команда готовилась и выступала на зимнем межнаре. Особенно интересные последние два, про кринжату со стороны организаторов

https://t.me/aguschin_ai

605

Aparin

13 мая 2026 г., 01:17

📷 Photo

Выложили с коллегами https://www.arxiv.org/abs/2602.05027 по Audio SAE на arxiv. Это одна из первых работ, посвященная применению разряженных автоэнкодеров в аудио домене

Sparse Autoencoder (SAE) - это инструмент механистической интерпретации, который "распутывает" активации модели, переводя их в пространство большей размерности. SAE учится таким образом, что вектор его латентных активаций становится разреженным, в результате активации модели на каждом токене описываются небольшим множеством фичей (компонент латентного вектора SAE). Эти фичи в идеале должны быть моносемантичны и интерпретируемы, но этими свойствами зачастую обладает лишь небольшая их часть. Моносемантичность значит что фича кодирует один доминирующий концепт, а свойство интерпретируемости позволяет человеку описать этот концепт через анализ последовательностей токенов, на которых фича имеет наибольшую активацию. Таким образом можно понять на что именно обращает внимание модель

Аудио модели заметно хуже интерпретируются по сравнению с моделями в NLP и CV доменах. Одной из причин этого является то, что перед подачей в энкодер аудио разбивается на фреймы, каждый их которых кодирует маленький временной промежуток, порядка нескольких десятков миллисекунд. Из за этого акустические события, претендующие на название индивидуальных и интерпретируемых концептов, например произношение конкретной фонемы, размазываются по активациям на несколько фреймов, из чего следует низкая семантическая плотность представлений

Интерпретация сложна также тем, что она может проводиться на нескольких уровнях: акустическом (прослушивание сегментов активности), спектральном (просмотр сегментов на спектрограмме), семантическом (анализ корреляции фичи с метками классификации аудио-эвентов) и текстовом (анализ описаний, полученных из LLM)

При попытке поиска простых акустических концептов (например высоты тона, тембра, громкости) возникает проблема того что в речи они постоянно меняются и сложно найти и проанализировать сегменты, где в теории должна активироваться характерная фича

Сложные же речевые концепты (например акцент, возраст, настроение говорящего) искать легче, но они не локализованы в рамках одной SAE фичи. В наших экспериментах по их классификации было достаточно небольшого набора признаков (5-100), но для достижения unlearning'а (наблюдения ухудшения классификации после зануления ключевых компонент) нужно значительно больше фичей, что указывает на многокомпонентную структуру сложных аудиоконцепций

В наших экспериментах мы проанализировали фичи, относящиеся как к локальным, так и к глобальным концептам. Первые активируются на конкретных звуковых событиях, например смехе, кашле, произношении фонем. Вторые соответствуют более общим концептам, начиная с доменной области аудио (речь, звуки, музыка), заканчивая атрибутами речи говорящего, такими как пол, язык, эмоциональная окраска

Был поставлен эксперимент, показывающий связь некоторых фичей SAE с ЭЭГ сигналом человека, слушающего аудио. В результате было найдено некоторое количество фичей с высокой корреляцией, что подтверждает гипотезу о том что аудио модели и человеческий мозг активируются на схожих аудио атрибутах

Также нам удалось значительно снизить количество галлюцинаций модели Whisper, которая склонна распознавать речь там где её нет. Для этого мы применили метод "стиринга" активаций, который меняет скрытые представления, изменяя тем самым генерацию модели. Стиринг с помощью SAE оказался более эффективным по сравнению с стирингом на исходных активациях и снизил количество галлюцинаций в 3 раза, при незначительном увеличении метрики распознавания WER

Исходный код и чекпоинты будут выложены в открытый доступ в скором времени. Сейчас же мы выложили статью на huggingface, так что https://huggingface.co/papers/2602.05027 чтобы больше людей её увидело

Aparin

13 мая 2026 г., 01:17

https://t.me/olimpiad_CU

Завершился зимний ИИ межнар IAIO, от летнего IOAI он отличается тем что в нём есть теоретическая часть с математическими задачками (в летнем только практическая). Последние три недели мы готовили ребят, в частности я готовил к теор части. Ребята вообще большие молодцы, до подготовки я не думал что школьники могут так хорошо шарить за теорию ML. То есть аргумент о том что они оверфитнуты только под хакатоны и соревы, где надо настакать побольше бертов или катбустов не совсем правдивый, по крайней мере для тех четырёх ребят, которых мы готовили. (в посте их трое, потому что один из них к сожалению заболел прямо накануне вылета, так бы было на одну медаль больше). Впрочем, всё равно есть куда расти, золота мы к сожалению не взяли

Сам я конкретно устал за время подготовки, в очередной раз оказалось что готовить и читать лекции вообще очень сложно. Но отдохнуть у меня пока что не получится, на следующей неделе начнутся сборы с подготовкой к заклу ВсОШа по ИИ, на них я тоже поеду читать ML CV и NLP (жаль аудио там нет)

771

Aparin

13 мая 2026 г., 01:17

📷 Photo

а ещё там живут вот такие одетые козочки

797

Aparin

13 мая 2026 г., 01:17

📷 Photo

местные жители

710

Showing 5 of 5 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

Aparin

Aparin

Рейтинг

Рост участников (Последние 13 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

ЛАЙФ РЕХАБ

Александр Лебедев

Сердце феникса

HHS | HISTORY HOMO SAPIENS

🕊Голос Лидера

Это все жизнь | Айгуль Мурсалимова

Гедонизм и Интеллект

ЗБС | Карьерный Коуч | Татьяна Разгуляева

Похожие каналы Telegram

ЛАЙФ РЕХАБ

Александр Лебедев

Сердце феникса

HHS | HISTORY HOMO SAPIENS

🕊Голос Лидера

Это все жизнь | Айгуль Мурсалимова

Гедонизм и Интеллект

ЗБС | Карьерный Коуч | Татьяна Разгуляева

Отзывы пользователей (0)

Последние посты