Экономика AI-агентов: сколько стоит работа больших языковых моделей для бизнеса
Дискуссия вокруг AI-агентов на базе больших языковых моделей постепенно смещается от обсуждения технологических возможностей к вопросу экономической устойчивости таких решений. О структуре затрат и подходах компаний к расчету эффективности «Делу в цифрах» рассказал Александр Перевалов, руководитель группы разработки ИИ
https://t.me/greendata_store.
🔘Что формирует стоимость работы AI-агентов?
Первое — тарифы на токены при использовании API языковых моделей. Коммерческие модели обычно тарифицируются за тысячу или миллион токенов, при этом стоимость входных и выходных токенов может различаться.
Второе — капитальные и операционные расходы на собственную инфраструктуру: серверы с GPU, электроэнергия и затраты на администрирование.
🔘Можно ли перевести стоимость работы моделей в понятные цифры?
Сегодня экономика достаточно прозрачна. У российских разработчиков ориентировочные тарифы составляют около 0,65 руб. за 1 тыс. токенов для GigaChat Max и примерно 0,2033 руб. за 1 тыс. токенов для YandexGPT. Если говорить упрощенно, генерация текста объемом примерно одна страница А4 обходится менее чем в один рубль.
В целом расчет выглядит так: затраты = (количество входных токенов × цена входа) + (количество выходных токенов × цена выхода).
Соответственно, на стоимость напрямую влияет длина промптов, использование цепочек рассуждений и многошаговые вызовы инструментов.
🔘Почему архитектура AI-агента так сильно влияет на расходы?
AI-агенты редко ограничиваются одним обращением к модели. Как правило, это последовательность действий: анализ задачи, вызов внешних инструментов, проверка промежуточных результатов и дополнительные обращения к модели.
Каждый такой шаг увеличивает расход токенов. Поэтому сейчас активно разрабатываются архитектуры, позволяющие сократить количество обращений к LLM без существенной потери качества. Используются стратегии кэширования ответов и внутренних состояний моделей, а также комбинирование крупных моделей с более компактными решениями для отдельных этапов обработки.
🔘Когда компаниям выгоднее разворачивать модели на собственной инфраструктуре?
При высоких нагрузках компании иногда переходят на on-premise-развертывание. В этом случае расходы смещаются с оплаты токенов на инфраструктуру.
Если условно предположить, что один сервер для инференса с учетом амортизации оборудования, электроэнергии и администрирования обходится примерно в 100 тыс. руб. в месяц, а за этот период модель генерирует около 250 млн токенов, то стоимость составит около 0,4 руб. за 1 тыс. токенов. Это ниже, чем тарифы GigaChat Max, но выше, чем у YandexGPT.
🔘Всегда ли у компаний есть выбор между облаком и собственной инфраструктурой?
Не всегда. Организации, работающие с критической информационной инфраструктурой или имеющие повышенные требования к безопасности, зачастую не рассматривают использование облачных моделей. В таких случаях on-prem-развертывание становится единственным возможным вариантом.
Однако если выбор есть, API-модели обычно остаются более экономичным вариантом при низких и средних объемах использования. Собственная инфраструктура становится выгоднее только при стабильных и высоких нагрузках, когда GPU используются с высокой загрузкой, а требования к качеству могут быть удовлетворены open-source моделями.
#эксклюзив в 📄 Дело в цифрах в Telegram | https://max.ru/delo_nom