Princeton выложил интересный open-source проект — OpenClaw-RL. Это система, которая позволяет AI-агентам обучаться прямо во время работы, на основе обычного общения с пользователем. Идея довольно простая: каждое взаимодействие с агентом превращается в обучающий сигнал. Ты задаёшь вопрос, агент отвечает, ты его поправляешь или уточняешь — и всё это автоматически становится данными для обучения. Не нужно отдельно собирать датасеты или размечать ответы вручную. Сам процесс использования агента становится источником обучения.
Технически это устроено так. Агент продолжает работать как обычно — общается с пользователем, вызывает инструменты, выполняет команды в терминале, взаимодействует с интерфейсами. Параллельно в фоне работает RL-сервер, который анализирует всё происходящее: сообщения пользователя, вывод инструментов, действия агента в среде. Из этих взаимодействий извлекаются два типа сигналов. Первый — evaluative, то есть оценка того, насколько хорошо агент выполнил задачу. Второй — directive, то есть подсказка о том, как нужно было сделать правильнее. Эти сигналы оцениваются специальной моделью-судьёй (PRM-judge), после чего система с помощью метода hindsight-guided distillation восстанавливает правильные действия и использует их для дообучения политики агента.
Важный момент — обучение происходит асинхронно. Агент продолжает обслуживать пользователя, пока в фоне идёт обучение на предыдущих взаимодействиях. То есть модель постепенно обновляется без остановки работы. За счёт этого появляется возможность долгосрочного улучшения: если пользователь работает с агентом месяцами, агент постепенно подстраивается под его стиль, задачи и привычки.
При этом важно не переоценивать масштаб новизны. OpenClaw-RL — это не новый фундаментальный алгоритм reinforcement learning. Скорее это инженерная система, которая аккуратно собирает сигналы из взаимодействий и превращает их в обучающие данные. Но именно такой подход может оказаться очень важным для практики. До сих пор большинство моделей после релиза фактически остаются статичными: они не учатся от конкретного пользователя. Здесь же появляется возможность персонального обучения в процессе использования.
Есть и ограничения. Система пока довольно тяжёлая в инфраструктуре — требуется отдельный RL-сервер, модели для оценки действий и полноценный стек обучения. Онлайн-обучение также может быть нестабильным и требует аккуратного контроля. Но направление выглядит логичным: если агенты должны работать с человеком годами, они должны иметь возможность постепенно улучшаться на основе этого опыта.
По сути OpenClaw-RL делает шаг к новому типу AI-агентов — не просто заранее обученных моделей, а систем, которые со временем становятся всё более персональными. И если такие архитектуры приживутся, будущие агенты будут отличаться не только моделью, на которой они построены, но и тем опытом взаимодействия, который они накопили вместе со своим пользователем.