Обойдем стороной громкие заголовки про
https://t.me/tips_ai, которая, по их заявлениям, способна очень быстро находить и эксплуатировать уязвимости в ПО.
Из за этого модель пока не дают в публичный доступ, но создают вокруг неё инициативу совместно с NVIDIA, Apple, Google, Microsoft, и еще с десяток именитых компаний.
На этом фоне хочу рассказать об интересном способе, как вообще понимают, что модель умная? Как измеряют интеллект?
Вы наверняка слышали слово бенчмарк. По сути это тест - набор заданий где заранее известен правильный ответ. Чаще всего измеряют, на сколько заданий модель ответила правильно. Например, gpt 5.3 отвечает на 50%, а gpt 5.4 на 55% - так и считают что модель получилась умнее.
Бенчмарки делают в разных областях: от написания кода и исправления багов, до ответов на закрытые экзаменационные вопросы широкого спектра академических дисциплин. Есть даже такой: проверка «здравого смысла» через предсказание логического завершения бытовых ситуаций. Интересная статья про https://habr.com/ru/articles/1017082/
На мой взгляд интереснее наблюдать за бенчмарками которые измеряют не процент выполнения теста, а время автономного выполнения задачи. Измеряют максимальную длительность задачи, которую ИИ способен довести до конца без ошибок и помощи человека. По сути, это проверка того, на сколько часов автономной работы хватает «внимания» и логики нейросети.
С января по декабрь 2025 метрика выросла с 1 до 6 часов. В феврале с релизом Opus 4.6 еще до 12-14 часов.
Модель Mythos из новости еще так не оценивали, но предсказывают на уровне 40-50 часов.
Что хочется добавить от себя:
1. Такие метрики помогают увидеть, насколько прогресс ускорился за последние месяцы. В кружке ИИ-энтузиастов всех не переставая штырит с ноября от возможностей. При этом не успевать за ними - нормально. Никто не успевает
2. Возьмите любую вашу задачу, которую вы делаете за компьютером целый день, 8 рабочих часов.
Оставьте себе половину, где нужен ваш уникальный взгляд и творческий подход.
Вторую половину можно смело отгружать в ИИ. Главное - начать пробовать