Я тут придумал крутую штуку, вам это понравится (см в конце поста)
Итак, соревнование 11 апреля будет называться BitGN PAC (или "BitGN Agent Challenge: Personal & Trustworthy"). Доки по организации площадок и процесса я пишу прямо сейчас. Все новости будут дублироваться в канале.
На самом деле, все почти как в ERC3, но, оказывается, далеко не все в нем участвовали))
Но суть та же самая - я выкатываю платформу с апишками, которые симулируют какую-то среду в упрощенном виде. Для ERC3 - это была корпоративная среда, для BitGN PAC - это будет среда для персонального агента с таймерами, файлами, каналами коммуникации, тулзами).
Участники пишут свое ядро агента, которое запускается в этой среде (Harness) и решает задачи. Для этого агенту нужно будет дергать апишки, вызывать LLM-ки (какие угодно) и в итоге давать ответ. А система оценивает точность и безопасность ответов без всяких LLM-as-a-judge костылей. Это все проходили. https://erc.timetoact-group.at/.
На выходе участники соревнования получают интересный опыт, их решения занимают места https://erc.timetoact-group.at/assets/erc3.html, топовых игроков начинают переманивать к себе, а зрители могут увидеть какие решения на практике работают лучше всего (ибо архитектурами обычно делятся). И это дает задел всем на следующие соревнования. Ну а написанное ядро ставится на полку в GitHub.
Все круто. А что, если сделать еще веселее?
После соревнования я хочу сделать референсную реализацию инфраструктуры, в которую ваш агент "втыкался" во время соревнования. Опубликовать ее в OpenSource, чтобы можно было ее запустить у себя на лаптопе или сервере, и ваш агент уже работал с вашими файлами, отвечал на ваши сообщения и разгребал ваши задания.
И потом это все можно будет, естественно, форкать и допиливать, как душе угодно. Можно даже один экземпляр агента запустить публично для взлома. И удачные взломы забрать в качестве тестовых заданий для следующих соревнования.
А то агентов после ERC3 в компаниях уже запускали, а вот личных агентов - еще не особо.
Ваш, 🤗