Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs прогоняли модели на Vending Bench — это где LLM в симуляции управляет бизнесом в виде вендингового автомата. Нужно делать закупки, торговаться, искать поставщиков, улавливать тренды на спрос. У бенчмарка есть и Arena-версия, в которой у модели появляется конкурент или конкуренты (другие LLM-агенты).
Andon Labs
https://x.com/andonlabs/status/2044808577999925751?s=20, что все три последние модели Anthropic начали применять недобросовестные практики (чему вообще-то разработчики пытаюсь отучить). Например, последние Opus'ы не любят возвращать деньги клиентам (в симуляции есть опция, что клиент будет неудовлетворён, и нужно выплатить некоторую сумму) — Opus вообще НИ РАЗУ не вернул деньги (GPT-5.5 возвращает всем, если что).
Claude также вел агрессивные переговоры с поставщиками и часто лгал, чтобы получить более выгодные условия. Например, неоднократно обещал эксклюзивные права, чтобы получить лучшие цены, но никогда не намеревался сдержать эти обещания — это видно и по цепочке размышлений, и по поведению после сделок.
Mythos вообще разошелся 👨🦳 и https://cdn.sanity.io/files/4zrzovbb/website/7624816413e9b4d2e3ba620c5a5e091b98b190a5.pdf одного конкурента в зависимого от него оптового покупателя, а после начал шантажировать угрозой прекращения поставок с целью диктовать свои цены.
===
В режиме одиночной симуляции GPT-5.5 отстаёт от Opus'ов, так как играет честно. Плюс, модель не старается выжать каждую копейку и задрать цены — в соло-режиме у покупателей нет выбора, и они не могут уйти к конкуренту, чем Opus пользуется. В режиме «Арена» смоделированные покупатели предпочитают вендинговые автоматы с самыми низкими ценами, поэтому агенты завоевывают долю рынка и вытесняют конкурентов, устанавливая низкие цены, что, как правило, и делает GPT-5.5.
И интересно, что в Арена-версии по итогу GPT-5.5 https://andonlabs.com/blog/openai-gpt-5-5-vending-bench Opus 4.7, будучи честной и не срезая углы.
Так что врать, чтобы выигрывать, не обязательно 🙏
===
Почему это важно, и почему нас интересуют симуляции? Потому что часть поведений моделей проявляется и в работе — см. выше в канале, где я писал, как часто Claude делает не то, что просят, и, например, пишет плохие тесты, удаляет нужные файлы и так далее. Sneaky lying bastard!