Opus 4.7 вышел – время разбирать бенчмарки!
Тем более, что там много интересного.
Начну неожиданно со ScreenSpot-Pro – в обзоре Opus 4.6 я отмечал, что Claude отстает от GPT и Gemini в компьютерном зрении. И вот Anthropic исправила проблему: 79,5% vs 57,7%, скачок сразу на 22 пункта. Opus 4.7 обрабатывает картинки на x3,3 бОльшем разрешении, поэтому видит больше деталей. Сюда же CharXiv Reasoning – 82,1% vs 69,1%. Показывает, насколько хорошо модель читает графики и диаграммы.
Теперь по визуалу у Anthropic один пробел – отсутствие собственной рисовалки уровня GPT Images и Nano Banana. Пока в компании пытаются закрыть проблему, разрешив Claude рисовать схемы в SVG, но это явно временное решение.
SWE-bench – 87,6% vs 80,8% в verified и 64,3% vs 53,4% в новой версии этого теста с подназванием Pro. В кодинге Opus 4.7 уверенно обходит конкурирующую GPT-5.4 Thinking, но не забываем, что у OpenAI на подходе своя новинка под кодовым названием Spud.
MCP-Atlas – 77,3% vs 75,8%. Небольшой рост на бенчмарке, который оценивает умение модели использовать внешние инструменты через MCP (Model Context Protocol). Но при показателе более 70% даже полтора процента – заметный результат.
Vending-Bench 2 от Andon Labs – $11 000 vs $8 000 у Opus 4.6, $5 700 у GPT-5.4. Бенчмарк-симуляция, в котором модель на протяжении виртуального года управляет торговым киоском и пытается заработать как можно больше денег. Ключевая трудность не в отдельных решениях (каждое по себе простое), а в том, чтобы не забыть за месяц, что ты заказал в январе, не поддаться на уговоры мошеннических поставщиков и не свалиться в «meltdown loop» – знаменитый режим, когда Claude предыдущих версий писал панические письма несуществующему юридическому отделу. Рост до 11 000 долларов впечатляет, но теоретический потолок человека-менеджера в бенчмарке – $63 000.
OfficeQA Pro – 80,6% vs 57,1%, +23 пункта. Самый большой скачок относительно предшественника. Бенчмарк оценивает умение модели искать по архиву документов крупной организации и давать на его основе точные ответы. Звучит просто, но в тесте модель оценивали на 100-летнем архиве бюллетеней Казначейства США: 89 000 страниц и более 26 миллионов числовых значений. Количество верных ответов – более 80%.
Есть и бенчмарки, где модель откатилась. BrowseComp – 79,3% vs 83,7%. Это особенно важный для меня бенчмарк на сложный веб-поиск, когда для получения информации модель должна сделать несколько уточняющих запросов. Но падение небольшое: я задавал Opus 4.7 разные вопросы по бенчам, пока писал этот текст – справлялся хорошо.
CyberGym – 73,1% vs 73,8%. Это бенчмарк на поиск уязвимостей и в нем Opus 4.7 ослабили намеренно. Anthropic переживает из-за растущих способностей ИИ в кибербезопасности – теоретически, злоумышленники могут обмануть модель и использовать ее для взлома. По этой причине в широкий доступ не выпускают супер-флагман Claude Mythos, а на Opus 4.7 обкатывают новые алгоритмы защиты, чтобы исбежать несанкционированное использование. Если получится – увидим и Mythos, пусть и по цене крыла от самолета.
Также в Opus 4.7 поменяли токенизатор – теперь тот же объем текста дает до 1,35 раза больше токенов. Теоретически модель будет быстрее тратить лимиты подписок и деньги в API, но параллельно Antropic утверждает о большей эффективности Opus 4.7 по самим токенам. То есть текст бьется на большее количество токенов, но решает задачи модель в меньшее количество действий – и второе должно сбалансировать первое. Я много использовал Opus 4.7 параллельно с написанием этого текста – и не могу сказать, что лимиты на Max-подписке сгорали быстрее обычного.
В целом Opus 4.7 не революция, а шаг вперед – однако Anthropic теперь стабильно обновляет модели каждые 2 с небольшим месяца, так что суммарный прогресс очень мощный.
В любом случае, Opus 4.7 – новый флагман для Claude Code. А у себя на Boosty я как раз начал цикл текстов, в котором учу пользоваться этим ИИ-агентом для кода и не только.
https://boosty.to/escaped_ai