😈 Что такое хорошо, и что такое плохо? Как оценить качество AI-решения
Прошлая неделя была интересной и яркой — вышло большое количество знаковых релизов 💫
В начале недели OpenAI выпустили две
https://t.me/ai_machinelearning_big_data, что для OpenAI большая редкость и сюрприз 🎁 А потом добили нас танцем в виде трех вариантов ChatGPT-5.
Google порадовал перспективной моделью для будущих генеративных мультивселенных Genie-3 (
https://t.me/ai_newz много крутых примеров генерации).
Если вы читаете новости на тему нейросетей, то вы уже прочитали об этом в других каналах.
Я обычно предпочитаю постить не новости и хайп, а ретроспективу, когда уже станет понятно, насколько та или иная модель прижилась и нашла свое место в жизни.
Вот, например, свежая ChatGPT-5, которую так долго анонсировали, подогревая ожидания.
Хорошая это модель или так себе?
CEO компании OpenAI, Сэм Альтман, которого гики AI-тусовки по-дружески называют "Сэма", был так уверен в успехе gpt-5, что отключил в чате все старые модели.
Но пользователи его мнение не разделили. Они так привыкли к изюминке стиля общения gpt-4o, что потребовали её вернуть обратно.
Вопрос, насколько модель получилась плохо или хорошо — весьма непрост.
Чтобы на него ответить, придумали бенчмарки.
💎Бенчмарк — это сравнительный тест для количественной оценки работы модели или алгоритма.
Такой тест состоит обычно из списка вопросов с правильными ответами.
Сравнивая выдачу с эталонными ответами, можно сказать, насколько хорошо работает модель.
Хитрость в том, что модели могут проявить себя лучше в одних задачах и хуже в других.
Поэтому есть множество разных бенчмарков, каждый из которых проверяет что-то своё.
Примеры:
🟣 https://github.com/TIGER-AI-Lab/MMLU-Pro — проверяет фактические знания и логические рассуждения. Пришел на смену более простому бенчмарку https://en.m.wikipedia.org/wiki/MMLU (классика жанра!)
🟣 https://www.vals.ai/benchmarks/aime-2025-03-11 — способность решать математические задачи
🟣 https://livecodebench.github.io/ — задания по программированию
🟣 https://three.arcprize.org/ — заставляет нейросети играть в необычные компьютерные игры, проверяя их способность обучаться на ходу, без заранее известных правил. Люди тоже могут играть, https://three.arcprize.org/!
🟣
https://t.me/ai_newz (последний экзамен человечества) — решение самых сложных вопросов, которые смогли придумать эксперты в своих областях
🟣
https://t.me/ai_newz — изображения, которые специально сбивают с толку нейросети с визуальным ризонингом. Пятиногие зебры, шахматные доски с неправильным клеток, значок "Мерседес" с четырьмя лучами и прочие ляпы, проверяющие, что нейросеть действительно думала, а не просто вспомнила похожее.
По мере того как модели становятся умнее и получают результаты, близкие к человеческим, приходится изобретать новые бенчмарки.
И всё же, сколько бы вы тестов ни провели, это не даст вам объективной картины, что из себя представляет модель, пока вы не попробуете её в деле, конкретно с вашими данными.
Поэтому при внедрении ИИ в корпоративных проектах обычно приходится собирать свой собственный бенчмарк из тех вопросов, которые важны для конкретного кейса.
Система оценки качества на основе внутреннего бенчмарка — это обязательный пункт программы внедрения корпоративного AI. Без этого компонента вы не будете понимать, насколько хорошо работает ваша система, а для AI/ML это критически важно из-за недетерминированного вывода.
Так что, если вам предлагают внедрение без бенчмарка — это повод задуматься и переспросить.
#бенчмарки #gpt-5 #gpt-oss #genie-3