Sign-SGD via Parameter-Free Optimization: sign-оптимизация без ручного подбора размера шага
Сегодня разбираем статью, прошедшую на ICLR-26 и подготовленную совместно с комадной
https://research.yandex.com/ (исследователи пишут про принятые статьи в канале
https://t.me/MLunderhood).
💡 О чём работа?
Sign-SGD любят за простоту и «дешевую» память: вместо полноценных градиентов можно передавать/хранить только их знаки — удобно и для распределенного обучения, и на одном устройстве.
Но у него, как и у других классических оптимизаторов, есть большая практическая боль: эффективный шаг (stepsize) заранее не выбрать, потому что он зависит от неизвестных свойств каждой отдельной задачи — и в итоге всё упирается в тюнинг.
⚠️ Почему это проблема?
В больших моделях, например LLM, подбор learning rate — это не «пара запусков», а полноценный grid search + поиск расписания (schedule), что:
⋅ тратит GPU-часы и деньги;
⋅ делает метод тяжело переносимым между задачами/датасетами.
🎯 Что мы предлагаем?
Мы строим parameter-free Sign-SGD: алгоритм сам подстраивает шаг обучения на каждой итерации, без рестартов и без дополнительного поиска гиперпараметров.
Ключевая идея — оценивать глобальные константы задачи, от которых зависит оптимальный шаг (в частности, гладкость и начальное приближение с точки зрения функции), по текущей информации о градиентах.
🧩 Что внутри (если коротко, но по делу):
⋅ ALIAS: алгоритм на основе Sign-SGD с автоматическим выбором шага.
⋅ Сценарии: разобраны детерминированный, стохастический и распределённый алгоритмы для обучения.
⋅ Momentum-вариант (в духе Adam): чтобы подтянуть практическую эффективность, сохранив parameter-free идею.
⋅ Memory-efficient версия: вариант, который хранит только знаки прошлых градиентов для подбора шага и сохраняет адаптивность (важно для памяти).
⋅ Бонус: в экспериментах видно, что с нашим подбором шага автоматически возникает косинусное расписание, без явного cosine scheduler.
📊 Эксперименты
Проверили на задачах, где тюнинг особенно дорог:
⋅ pre-training LLaMA (130M и 350M параметров);
⋅ fine-tuning Swin Transformer (28M параметров).
⋅ другие задачи из бенчмарка AlgoPerf.
🔥 Итог
Наши parameter-free варианты по качеству обучения сопоставимы с “затюнеными” Sign-SGD и AdamW (где lr подбирали через grid search + cosine schedule), и при этом убирают дополнительные расходы на подбор.
Это даёт примерно ~1.5× ускорение end-to-end по сравнению с запусками, где lr подбирают сеткой.
✨ Почему это важно?
⋅ Меньше ручного тюнинга → быстрее обучение на любых задачах
⋅ Sign-оптимизация остается “дешевой” по памяти → меньше затрат на GPU-ресурсы
⋅ Работает в реалистичных режимах → стохастика, распределенка
📎 https://openreview.net/pdf?id=yDLD3D95w3
💻 https://github.com/brain-lab-research/ALIAS