Сбер представил Green-VLA — открытое руководство по созданию архитектуры управления роботами
VLA (Vision-Language-Action) — это класс моделей, которые одновременно видят картинку, понимают текстовую команду и сразу выдают действия для робота: куда тянуть манипулятор, когда закрывать захват, как повернуться и так далее. Но их интеграция на практике требует тщательной проработки методологии и синхронизации с "железом".
Поэтому в Сбере разработали фреймворк Green-VLA, описывающий архитектуру управления на примере
https://t.me/anti_agi. Чтобы она работала в реальном мире, авторы обучают систему по шагам:
Сначала учат модель хорошо понимать изображение и текст; потом — связывать слова с объектами и действиями в сцене; затем — учат на большом наборе записей, как действуют разные роботы; потом — подгоняют под конкретного робота; и в конце — “дожимают” обучение так, чтобы поведение стало надёжнее (через обучение с подкреплением).
Для обучения они построили конвейер обработки данных и собрали примерно 3 тысячи часов демонстраций: записи того, как роботы выполняют задачи. Эти данные они чистят, приводят к одному темпу и формату, а управление делают единым интерфейсом, чтобы одна и та же модель могла управлять гуманоидом, мобильным манипулятором и стационарной рукой.
На этапе работы (когда робот уже выполняет задачи) систему дополняют “страховками”:
▪️ она оценивает, как продвигается задача и когда пора переходить к следующему шагу;
▪️ пытается понять, не попала ли она в незнакомую ситуацию (где может ошибиться);
▪️ и использует подсказки, чтобы точнее выбирать цель — например, какой именно предмет взять или куда именно тянуть руку.
В тестах на популярных наборах задач и на реальном роботе авторы показывают, что финальный этап “дожима” через обучение с подкреплением заметно улучшает процент успеха, устойчивость и способность выполнять длинные цепочки действий без развала.
Green-VLA позиционируется как открытая методология обучения, а не готовый универсальный контроллер для роботов. С отчётом можно ознакомиться на https://arxiv.org/abs/2602.00919 и https://huggingface.co/papers/2602.00919. Отмечают, что материал занял первое место среди статей дня на портале Hugging Face, обогнав работы Moonshot AI и совместные исследования китайских и американских университетов.