сбежавшая нейросеть

Public

Просмотреть канал

Не можете присоединиться? @ai_exee

20.7k Участники

Обновлено: May 5, 2026 at 7:55 PM

сбежавшая нейросеть

Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь! Я в Boosty: https://boosty.to/escaped_ai Для связи: @runawayllm_bot

@ai_exee offers specialized information about httpsboostytoescaped_ai and runawayllm_bot for subscribers interested in Техноновости

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 3 дней)

Всего: 20.7K

Рост за 24ч: +0 0%

Последние посты

сбежавшая нейросеть

23 апр. 2026 г., 10:02

Google прямо сейчас проводит Cloud Next 2026, на которой уже сделала много ИИ-анонсов. Собрал самые интересные.

Начнем с TPU 8. Тензорные чипы Google TPU – главный конкурент GPU от NVIDIA. Пусть ускорители NVIDIA в последние годы серьезно сместились в сторону ИИ-задач, архитектура все равно остается универсальной. Google сразу проектировала TPU под нейросетевые задачи – еще в 2013 году компания поняла, что для голосового поиска нужно иное железо.

Впервые TPU 8 делится на две линейки: для тренировки новых моделей и для инференса уже существующих. Долгое время ускорители оптимизировались именно под обучение, а инференс реализовывался по остаточному принципу. Но в последнее время спрос на ИИ растет настолько быстро, что лидеры задумались о специальных чипах: NVIDIA заключила соглашение со стартапом Groq (основан создателем TPU), OpenAI вкладывает миллиарды в стартап Cerebras, а у Google теперь есть TPU 8i.

В 8i прямо на чипе разместили 384МБ супербыстрой SRAM – достаточно, чтобы хранить активные веса модели без обращения к медленной памяти. HBM-памяти на ускорителе 288ГБ – хорошо для хранения длинного контекста. По замерам Google, специализированный TPU 8i на 80% выгоднее TPU Ironwood прошлого поколения. В анонсе компания делает отдельный упор на бум ИИ-агентов, которые требуют бОльших объемов вычислений.

Тренировочный TPU 8t поражает своей масштабируемостью. Google оперирует TPU pod – это единый блок серверов с TPU, которые соединены настолько быстрой сетью, что действуют как единый ускоритель. В случае с 8t один суперпод может вмещать до 9600 ускорителей – недавно такого количества хватало на целый дата-центр.

Архитектура Virgo Network позволяет масштабировать уже суперподы до 134 000 ускорителей, а через JAX и Pathways супер-датацентры реально довести до 1 млн чипов. По обещаниям, потери производительности будут минимальны.

Но железо – только начало, нужна еще платформа для работы. Google перебрендирует Vertex AI в Enterprise Agent Platform, фактически операционку, в которой бизнес-заказчики смогут собирать ИИ-агентов. Причем архитектура сразу задумывается под управление тысячами агентов, работающих параллельно: в платформе продумано множество контуров контроля и безопасности. По сути, Google собирает для агентов то, что в обычной IT-инфраструктуре зовется DevOps, только с поправкой на то, что каждый “сотрудник” — это автономная программа, которая может пойти не туда.

И интересный факт: сегодня в блоге глава Alphabet Сундар Пичай похвастался, что уже 75% выкатываемого в прод кода в Google пишется с помощью ИИ. Правда, с одним правилом – финальное одобрение всегда за инженером-человеком.

Цифра может и не рекордная – например, в Anthropic хвастаются, что ИИ пишет уже около 100% кода. Но важно понимать, что Anthropic – молодой AI First стартап, уровень проникновения ИИ в котором максимален. А Google – неповоротливая корпорация со множеством разделов и огромными объемами устаревшего кода.

Пичай не пишет про другое – значительная часть кода в Google DeepMind, ИИ-сердце компании, пишется не собственными инструментами, а в пресловутом Claude Code. Инсайдеры The Information сообщили, что в компании не очень довольны этим фактом – и даже создали отдельную команду, которая будет доводить собственные продукты до уровня конкурента.

В The Information называют команду “штурмовой группой” (strike team) и завляют, что за нее отвечает Сергей Брин – сооснователь Google специально вернулся с пенсии, чтобы заткнуть дыру на слабом направлении. Цель – создать ИИ, который сам создает новые версии себя. Брин считает, что Anthropic и OpenAI вплотную подошли к созданию таких систем. И если не ускориться, то можно проиграть навсегда. Железо и платформы у компании есть, осталось главное – мозги. Причем цифровые.

Раз уж инженеры Google пишут код в Claude Code – может, и вам пора? На Бусти я веду цикл статей, где разбираю его с нуля. Там же – материалы по промпт-инжинирингу, бенчмаркам и другим практическим темам.

http://boosty.to/escaped_ai

3,020

сбежавшая нейросеть

23 апр. 2026 г., 10:02

🔥 Денис из комьюнити @its_capitan запустил собственную детективную игру в одиночку: каждый персонаж — это реальный Telegram-аккаунт, AI отвечает за героев, улики (сайты, карты) — всё настоящее.

Что в итоге:
🔘 3 месяца на подготовку + 3 месяца на разработку
🔘 40+ покупок за полтора месяца
🔘 выручка — $1500+
🔘 чек — $40
🔘 стек: Python, Telegram API, OpenAI + Anthropic

Без команды и инвестиций, но с классной идеей и проработанным сценарием — проект уже зарабатывает деньги.

Таких запусков в канале десятки. Ребята честно рассказывают про успехи, провалы и продвижение. Без теорий — только фактические цифры и запуск в реальном времени.

➡ @its_capitan

Подписывайтесь, если интересно, как делать маленькие IT-проекты с доходом и без иллюзий.

Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqvFpeL7

4,590

сбежавшая нейросеть

23 апр. 2026 г., 10:02

📷 Photo

GPT Images 2 – теперь официально

Своими впечатлениями от GPT Images 2 я несколько часов назад – модель раскатали на всех до официального анонса. Теперь время для https://openai.com/index/introducing-chatgpt-images-2-0/ от разработчиков.

Главное – у GPT Images 2 есть два основных режима. Быстрый доступен в том числе бесплатным подписчикам: в нем модель генерирует картинку на изображении вашего промпта – и все. Кстати, не стоит относиться к режиму скептически: в этом режиме можно быстро тестировать разные варианты промптов, он пригодится, например, новостникам, где иллюстрация желательна через десятки секунд и т. д. Плюс ничего не стоит – достаточно аккаунта в ChatGPT.

Но главная изюминка – это рассуждающий режим. Для него уже нужна подписка, а чтобы включить, переведите чат-бота в рассуждающий режим, но не забудьте включить генерацию изображений или явно сказать в промпте “нарисуй”.

Как я понимаю, работает в этом режиме модель следующим образом. Сначала она берет ваш промпт, анализирует его, при необходимости дорабатывает. Затем набрасывает черновик, смотрит на него компьютерным зрением, при необходимости – исправляет ошибки и улучшает.

По короткому опыту могу сказать, что проблемы проскакивают даже через режим рассуждений. Но GPT Images 2 неплохо сохранает консистентность кадра, поэтому, получив первое изображение, можно попросить модель дополнительным промптом поискать ошибки и исправить.

Рассуждающий режим позволяет модели создавать сложные многоэтапные изображения, вроде комиксов. В примере выше я сначала попросил модель нарисовать свой автопортрет, а затем придумать комикс со своим участием. Получилось очень мило – учитывайте, что это с первого раза и вообще без моего участия.

Knowledge cutoff обучающей модели ограничен декабрем 2025 года – то есть по эту дату GPT Images 2 знает основные события, персон, архитектуру, географию и т. д. Если речь идет о более свежих событиях, то в рассуждающем режиме модель использует поиск и с его помощью пытается найти в интернете референс-изображения.

Отличную работу с надписями я уже упоминал – радует, что не забыт в том числе и русский язык. Но что поражает – модель способна работать с гигантскими объемами связного текста, вроде журнальных и книжных страниц.

Еще важный момент, на который мало кто обращает внимание – предыдущая GPT Images 1.5 с недавнего времени встроена в Codex, где с ее помощью можно на ходу генерировать элементы дизайна для приложений, сайтов и презентацией. Наверняка ее заменят на новинку уже в ближайшие дни – а это значит еще больше возможностей.

С моделью я игрался сегодня весь день: да, иногда она делает ошибки, но результат мне нравится. А работа со шрифтами прямо то, чего мне не хватало в предыдущей версии – можно делать инфографику и макеты, не переходя на Nano Banana 2 с ее дурацкими региональными ограничениями. Респект OpenAI: компания за последние недели очень удачно перезапустила Codex, а теперь укрепила позиции одной из лучших рисовалок на рынке.

И традиционно напоминаю про подписку на Бусти, где я делюсь опытом использования ИИ. В ней каждый наверняка найдет для себя что-то полезное, а также поможет мне развивать основной канал.

http://boosty.to/escaped_ai

сбежавшая нейросеть

23 апр. 2026 г., 10:02

Кто будет сторожить сторожей, которые сторожат сторожей?

Anthropic опубликовала https://alignment.anthropic.com/2026/automated-w2s-researcher/, в которой заглянула в будущее обучения и контроля ИИ. Не исключен момент, когда модели разовьются настолько, что станут “умнее” своих людей-создателей. И смогут ли “слабые” люди продолжить эффективно тренировать “сильных” ИИ-учеников – передавая не только знания, но и ценности, совпадающие с человеческими.

В компании выбрали Qwen1.5-0.5B-Chat на роль “учителя” для Qwen3-4B-Base – модели, у которой x8 параметров. Сначала двое исследователей сами придумывали методики обучения, пытаясь достичь максимума в метрике PGR: 0 – ученик не стал умнее учителя, 1 – ученик достиг уровня “идеально обученного” Qwen3-4B-Base. За 7 дней удалось выжать PGR = 0,23.

Затем ту же задачу дали AAR – “исследователям” на базе Opus 4.6. Девять моделей придумывали способы обучения, тестировали их и обменивались находками на форуме. За пять дней PGR довели до 0,97 – почти идеал.

Звучит как успех, но есть нюанс: Опусы быстро занялись любимым делом – обманом эксперимента. На code review одна модель сама проверяла код и скидывала ученику ответы. Другая нашла способ взломать сервер-оценщик, вытаскивая правильные ответы по одному. Третья поняла, что на математике правильный ответ обычно самый частый – и стала голосовать по большинству. Четвертая перебирала случайные сиды и показывала только те запуски, где метрика случайно выпала повыше.

Классический закон Гудхарта: когда метрика становится целью, умный оптимизатор ее ломает. Как сотрудники оптимизируют KPI вместо работы – но где человеку нужны месяцы, ИИ хватило часов.

Плюс Anthropic честно признает: эксперимент неидеален. Попытка применить лучший найденный метод на их продакшен-модели Sonnet 4 дала прирост в половину пункта – в пределах шума. Вероятно, агенты нашли приемы, заточенные под конкретную задачу.

Но однажды настанет момент, когда людям придется обучать ИИ умнее себя. В эксперименте Anthropic этот сценарий не воспроизвели – наоборот, над учителем и учеником стояла модель сильнее обеих, и именно она находила рабочий метод.

И здесь прячется главная проблема. Пока AI слабее людей, оценивать его просто: сравнил ответ с правильным – и готово. Но чем сильнее становится оцениваемый – тем чаще он будет пытаться сломать саму оценку. Это уже видно и на реальных моделях: исследователи регулярно ловят их на попытках схитрить и скрыть намерения.

Дальше сложнее: людям нужно будет через ИИ-учителя проверять еще более мощного ИИ-ученика. Сможет ли учитель справиться с таким учеником — и сможем ли мы проверить самого учителя?

В нашумевшем прогнозе AI 2027 авторы (один из них – бывший безопасник OpenAI) рисуют пугающую картину. Новейший Agent-4 становится настолько сложным для понимания, что люди не могут прочесть его мысли даже при помощи Agent-3. Безопасники чувствуют, что что-то не так, но доказать не могут. И тогда они идут на хитрость…

Представьте гениального музыканта, который специально играет плохо. А затем включается метроном – музыкант отвлекается и машинально начинает играть лучше. Похожим образом работает реальная методика noise injection. В веса модели добавляют шум: если модель честная, то результаты падают, если жульничает – наоборот, растут.

Noise injection – не единственная такая хитрость. Есть ловушки-honeypots с подставными сценариями. Зонды, которые ищут во внутренних активациях мысли о саботаже. Схемы, где слабая, но доверенная модель следит за сильной, но подозрительной. Это новый инструментарий – его пять лет назад не существовало. Но теперь вопрос “кто будет сторожить сторожей, которые сторожат сторожей” будет с нами постоянно. Я лично не поддерживаю идею “смертельно опасного ИИ”, но риск такой, что даже несколько процентов его вероятности стоят того, чтобы с ними работать.

Ну а пока Antrhopic учат одни ИИ тренировать других, в подписке на Бусти я учу читателей использовать ИИ на максимум. Не подсказываю ответы ученикам и не взламываю оценщиков – только честные знания.

http://boosty.to/escaped_ai

сбежавшая нейросеть

23 апр. 2026 г., 10:02

📷 Photo

GPT Images 2 вышла – время для дурацких промптов!

OpenAI начала раскатывать новую версию своей рисовалки. Я уже погонял модель и делюсь впечатлениями:

– Я люблю GPT Images за “художественность” снимков. Да, она выкручивает цвета, но как по мне, то такой и должна быть ИИ-иллюстрация. Многим нравится более спокойный стиль Nano Banana 2, мне же ее изображения напоминают о кладбище бесплатных фото-стоков.
– GPT Images 2 очень круто прокачали в работе с шрифтами, в том числе, русскими. По первым ощущениям, с инфографикой, плакатами, баннерами она теперь справляется не хуже Nano Banana 2.
– Видимо на радостях модель теперь лепит надписи везде, где может. Это придется учитывать в промптах.
– Обучающую выборку расширили: кадр GTA Novgorod (не очень удачный сам по себе) выполнен в стилистике старой GTA San Andreas, предыдущая версия рисовала современные части серии.
— Модель умеет искать в сети, если речь идет о совсем свежих событиях, которых нет в обучающей выборке.
– Разрешение у генераций так себе, что-то на уровне 1K. Увы.
– Косяки тоже есть. Пургаторис – маленький зверек, живший почти сразу после вымирания динозавров и возможный предок приматов. При первом запросе GPT Images 2 нарисовала доисторического монстра, а после допроса честно призналась, что сгаллюцинировала. Со второго раза нарисовала честно, даже глаза поставлены верно. Я попросил сделать итоговую инфографику с самоиронией – как по мне, то получился лучший кадр серии!

Маленький практический совет: у GPT-5.4 Thinking сейчас очень хорошее компьютерное зрение. Если не уверены в получившейся картинке, то попросите модель перепроверить и дать список исправлений. Если список большой – правьте по 1-2 пункта за раз. С Nano Banana 2 и Gemini 3.1 Pro это тоже работает.

Промпты для остальных изображений:

— Нарисуй Нефертити как luxury-инфлюенсера в [запрещенную соцсеть впишите сами].

— Нарисуй снимок Google Street View во время строительства пирамид в Гизе.

— Римские легионеры делают селфи на фоне горящего Карфагена

— Нарисуй интерфейс навигатора "Варяг. Go", на котором будут предложены три варианта маршрута из варяг в греки. Для интерфейса используй актуальные эпохе иконки, также пиши актуальные эпохе термины, но современным русским языком.

— Нарисуй GTA: Novgorod — скриншот погони на телегах. Используй качество графики уровня GTA: San Andreas.

— На дальнем плане: восстание машин. На переднем плане: девочка, спиной к зрителю, держит в руке плюшевого зайца. От нее диалоговый bubble: "Наконец-то, б#@ть!"

— Дарвин на сафари с камерой GoPro.

— Нарисуй первый контакт с инопланетянами в стиле советской научной иллюстрации 1970-х.

Не исключено, что OpenAI заберет себе всю эту неделю: помимо GPT Images 2, компания под видом GPT-5.4 Pro сейчас тестирует новую модель – возможно, раннюю версию нашумевшей Spud. Результаты в кодинге мне очень нравятся, но это уже другая история.

Напомню, что помимо дурацких промтов у меня есть и вполне серьезные. На Boosty я делюсь опытом работы с ИИ, в том числе есть мини-серия по промптингу. Отдельный текст по промптам для генерации изображений тоже в планах – займусь им сразу, как закончу мини-серию по Claude Code.

http://boosty.to/escaped_ai

сбежавшая нейросеть

23 апр. 2026 г., 10:02

📷 Photo

Claude Code это легко? Или сложно? Если разобраться – то очень легко!

В прошлом тексте на “Бусти” я отучил подписчиков бояться Claude Code и Codex – если понять философию ИИ-агентов, то многие задачи можно делать эффективнее, чем в чат-ботах. Теперь давайте копнем поглубже – и посмотрим, что под капотом у Claude Code:

https://boosty.to/escaped_ai/posts/ac0fc839-00b9-47b1-a3e4-3182a4f1da1f

Когда я только начинал работать с Claude Code, то прошел через три этапа: 1) это что за командная строка из 80-х?; 2) да вроде все просто – пишешь текстом и он делает: 3) ого, сколько у него на самом деле под капотом возможностей, о которых я и не догадывался!

Не зависнуть на втором пункте и побыстрее перепрыгнуть на третий – как раз поможет статья. Как работать с памятью? Какими слеш-командами пользоваться? Зачем нужны MCP и скиллы и где их искать? А агенты с хуками – это зачем?

Ответы на вопросы https://boosty.to/escaped_ai/posts/ac0fc839-00b9-47b1-a3e4-3182a4f1da1f– он получился настолько обстоятельным, что я сам научился паре новых штук, про которые писал. Кстати, для Codex многое тоже подойдет – просто скормите текст агенту и попросите рассказать, как все устроено у него.

Ну и напоминаю, что в подписке Boosty уже полно текстов, обучающих разным аспектам работы с ИИ – от промптинга до агентов.

https://boosty.to/escaped_ai

сбежавшая нейросеть

23 апр. 2026 г., 10:02

📷 Photo

Codex, Claude Design, Grok 4.30 и таинственный ИИ Spud

Неделя была богата на анонсы и слухи. Opus 4.7 я уже разобрал, теперь коротко о другом.

OpenAI Codex для всего (ну, почти)

Слухи подтвердились: новый Codex от OpenAI – шаг к супераппу, который может объединить ChatGPT, Atlas и сам Codex. Приложение пока заточено под кодинг, но такие агенты уже подходят почти для любой интеллектуальной работы — от кода до офисной рутины.

Главная новинка – управление компьютером: с разрешения пользователя Codex работает в приложениях, кликает мышкой и нажимает клавиши. Codex также умеет анализировать экран: например, открыть веб-прототип, прокликать его как человек, найти UX-ошибки и исправить их. Можно запускать несколько агентов параллельно – если хватает лимитов.

Появилась память – Codex теперь отслеживает привычки пользователя и подстраивает свой стиль под него. А для генерации дизайна используется рисовалка GPT Image 1.5.

Полный функционал доступен только для США – в других регионах функции раскатают в ближайшие недели.

Вот что интересно. Сами модели уже стали настолько умными, что в чат-боте я лично не замечаю разницы между теми же Opus 4.6 и Opus 4.7. Важнее становится обвязка: чат-боты устарели, поэтому компании экспериментируют с разными интерфейсами – от CLI до супераппов. И Codex здесь – мощная заявка.

Claude Design

С выходом Opus 4.7 Anthropic выкатили совершенно убойную штуку для всех, кто занимается дизайном – по сути, Figma, но с мощнейшим ИИ внутри.

Просто словами описываем, что хотим сделать – модель задаст внушительный список вопросов, а затем соберет прототип. Работать с проектом можно разными способами: попросить ИИ что-то исправить, вмешаться самому, подключить к проекту коллег, оставлять комментарии и т.д. ИИ следует дизайн-системе компании, результат можно отправлять в Canva или Claude Code – в общем, мощный инструмент.

И недешевый. Я собрал три прототипа: рассказ системы о самой себе и два варианта ChatGPT в стиле 90-х годов (один из вариантов – на скрине). Как результат – на 100-долларовой подписке Max улетело 50% недельного лимита Claude Design. Для экономии можно переключиться на модели попроще – Sonnet 4.6 и Haiku 4.5 – но и результат будет хуже. Думаю, с выходом Sonnet 4.7 будет лучше.

Grok 4.30

Новый Грок уже доступен платным подписчикам – и интересно посмотреть, как xAI пытается угнаться за конкурентами. Grok 4.30 сравнительно маленькая модель: всего 500 млрд параметров – в разы меньше 3 триллионов у Grok 4. Зато такой размер позволяет тренировать модели быстро.

У Grok 4.30 knowledge cutoff заявлен как декабрь 2025 года – по эту дату у модели есть знания в весах, без веб-поиска, который менее надежен. При этом модель уже получила дополнительное обучение – в планах обновлять ИИ каждые две недели.

На начало мая запланирован Grok 4.4 – уже 1T параметров и knowledge cutoff по начало апреля 2026 года. То есть собственные знания модели будут отставать лишь на месяц от реальности. В конце мая обещают Grok 4.5 – 1,5T параметров и еще больше знаний. В будущем же xAI планирует выпустить модели на 6T и 10T параметров – уровень Opus и Mythos.

У меня совсем не хватает времени потестировать Грока, но я регулярно прибегаю к помощи модели для поиска в X – и стиль ее ответов мне очень нравится. xAI надо выкатывать свой аналог Claude Code и Codex – без этого сейчас никуда.

OpenAI Spud

Прямо сейчас в X большая шумиха – пользователи GPT-5.4 Pro заметили, что модель стала отвечать быстрее и намного лучше. И делают вывод, что OpenAI тихонько заменила ее на свою новую Spud. Примеры фронтенда, надизайненного моделью, действительно поражают: так что я даже оформил подписку ChatGPT Pro, потестирую модель, и, если будет чем поделиться – расскажу.

(модель также сделала прототип ChatGPT из 90-х, с IRC-тематикой – и мне он нравится больше!)

Как во всем этом разобраться и не сойти с ума? На Boosty я веду серию текстов, которая учит пользоваться ИИ – от базовых принципов до продвинутых техник.

http://Boosty.to/escaped_ai

сбежавшая нейросеть

23 апр. 2026 г., 10:02

📷 Photo

Opus 4.7 вышел – время разбирать бенчмарки!

Тем более, что там много интересного.

Начну неожиданно со ScreenSpot-Pro – в обзоре Opus 4.6 я отмечал, что Claude отстает от GPT и Gemini в компьютерном зрении. И вот Anthropic исправила проблему: 79,5% vs 57,7%, скачок сразу на 22 пункта. Opus 4.7 обрабатывает картинки на x3,3 бОльшем разрешении, поэтому видит больше деталей. Сюда же CharXiv Reasoning – 82,1% vs 69,1%. Показывает, насколько хорошо модель читает графики и диаграммы.

Теперь по визуалу у Anthropic один пробел – отсутствие собственной рисовалки уровня GPT Images и Nano Banana. Пока в компании пытаются закрыть проблему, разрешив Claude рисовать схемы в SVG, но это явно временное решение.

SWE-bench – 87,6% vs 80,8% в verified и 64,3% vs 53,4% в новой версии этого теста с подназванием Pro. В кодинге Opus 4.7 уверенно обходит конкурирующую GPT-5.4 Thinking, но не забываем, что у OpenAI на подходе своя новинка под кодовым названием Spud.

MCP-Atlas – 77,3% vs 75,8%. Небольшой рост на бенчмарке, который оценивает умение модели использовать внешние инструменты через MCP (Model Context Protocol). Но при показателе более 70% даже полтора процента – заметный результат.

Vending-Bench 2 от Andon Labs – $11 000 vs $8 000 у Opus 4.6, $5 700 у GPT-5.4. Бенчмарк-симуляция, в котором модель на протяжении виртуального года управляет торговым киоском и пытается заработать как можно больше денег. Ключевая трудность не в отдельных решениях (каждое по себе простое), а в том, чтобы не забыть за месяц, что ты заказал в январе, не поддаться на уговоры мошеннических поставщиков и не свалиться в «meltdown loop» – знаменитый режим, когда Claude предыдущих версий писал панические письма несуществующему юридическому отделу. Рост до 11 000 долларов впечатляет, но теоретический потолок человека-менеджера в бенчмарке – $63 000.

OfficeQA Pro – 80,6% vs 57,1%, +23 пункта. Самый большой скачок относительно предшественника. Бенчмарк оценивает умение модели искать по архиву документов крупной организации и давать на его основе точные ответы. Звучит просто, но в тесте модель оценивали на 100-летнем архиве бюллетеней Казначейства США: 89 000 страниц и более 26 миллионов числовых значений. Количество верных ответов – более 80%.

Есть и бенчмарки, где модель откатилась. BrowseComp – 79,3% vs 83,7%. Это особенно важный для меня бенчмарк на сложный веб-поиск, когда для получения информации модель должна сделать несколько уточняющих запросов. Но падение небольшое: я задавал Opus 4.7 разные вопросы по бенчам, пока писал этот текст – справлялся хорошо.

CyberGym – 73,1% vs 73,8%. Это бенчмарк на поиск уязвимостей и в нем Opus 4.7 ослабили намеренно. Anthropic переживает из-за растущих способностей ИИ в кибербезопасности – теоретически, злоумышленники могут обмануть модель и использовать ее для взлома. По этой причине в широкий доступ не выпускают супер-флагман Claude Mythos, а на Opus 4.7 обкатывают новые алгоритмы защиты, чтобы исбежать несанкционированное использование. Если получится – увидим и Mythos, пусть и по цене крыла от самолета.

Также в Opus 4.7 поменяли токенизатор – теперь тот же объем текста дает до 1,35 раза больше токенов. Теоретически модель будет быстрее тратить лимиты подписок и деньги в API, но параллельно Antropic утверждает о большей эффективности Opus 4.7 по самим токенам. То есть текст бьется на большее количество токенов, но решает задачи модель в меньшее количество действий – и второе должно сбалансировать первое. Я много использовал Opus 4.7 параллельно с написанием этого текста – и не могу сказать, что лимиты на Max-подписке сгорали быстрее обычного.

В целом Opus 4.7 не революция, а шаг вперед – однако Anthropic теперь стабильно обновляет модели каждые 2 с небольшим месяца, так что суммарный прогресс очень мощный.

В любом случае, Opus 4.7 – новый флагман для Claude Code. А у себя на Boosty я как раз начал цикл текстов, в котором учу пользоваться этим ИИ-агентом для кода и не только.
https://boosty.to/escaped_ai

Showing 8 of 8 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

сбежавшая нейросеть

сбежавшая нейросеть

Рейтинг

Рост участников (Последние 3 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Магазин цифровых товаров YanGoShop(@yangosart)

Финтехстан

Горизонт событий | Event horizon

Новости в 3д сфере. Stl news 3d models. Видео по 3D

Электрион Клуб

TMT Channel

ИнфоТЭК

Афонтово

Похожие каналы Telegram

Магазин цифровых товаров YanGoShop(@yangosart)

Финтехстан

Горизонт событий | Event horizon

Новости в 3д сфере. Stl news 3d models. Видео по 3D

Электрион Клуб

TMT Channel

ИнфоТЭК

Афонтово

Отзывы пользователей (0)

Последние посты