Во сколько на самом деле вам обойдется ИИ-агент: подсчеты от эксперта
Это материал входит в новый раздел РБК Образование, где мы рассказываем о том, как развивать навыки, принимать взвешенные решения и двигаться по карьере осознанно.
Школа управления РБК — новый образовательный проект медиахолдинга, ориентированный на развитие руководителей. Встречаемся каждый четверг в 19.00 на онлайн-событиях, где вместе решаем сложные управленческие задачи.
Расписание и темы можно посмотреть здесь.
ИИ-агенты постепенно становятся частью бизнес-реальности: они отвечают на вопросы клиентов, помогают автоматизировать процессы и ускоряют принятие решений. Но внедрение такой системы требует не только технологий — важны инфраструктура, логика работы, сценарии автоматизации и поддержка. В этом тексте мы разберемся, сколько стоит создать ИИ-агента для компании и на что уходят основные бюджеты.
Из чего состоит стоимость ИИ-агента
Чтобы понять экономику проекта по созданию ИИ-агента для бизнеса, нужно рассматривать его как экосистему из нескольких слоев. Каждый из них в той или иной степени влияет на бюджет.
Базовая структура расходов включает шесть пунктов:
- Инфраструктура LLM (large language model — большая языковая модель);
- Оркестратор;
- Сценарии автоматизации;
- Исполнение сценария (executions);
- Поддержка и эксплуатация;
- Стоимость обработки обращения.
Инфраструктура LLM: облако или on-premise
Первое, с чего начинается бюджет ИИ-агента, — это выбор, где будет работать модель. От него зависит буквально все: объем инвестиций, гибкость, безопасность и даже скорость реакции агента.
Для компаний, которые работают с персональными данными или подчиняются строгим регуляторным требованиям, вариант только один — развернуть модель внутри корпоративного периметра. Это гарантирует комплаенс и контроль, но превращается в самый затратный сценарий.
Чтобы обслуживать хотя бы тысячу сотрудников, нужен сервер с графическими процессорами (GPU) уровня Nvidea H200 стоимостью порядка 50 млн руб за весь сервер. Это только оборудование без установки и настройки. В год обслуживание такого сервера обойдется еще в 10–20% от его цены. При этом на рынке почти нет официальных поставок, и гарантийная поддержка зависит от посредников.
Второй вариант — разместить модель у облачного провайдера. Здесь нет капитальных затрат, так как компания оплачивает только операционные расходы — токены и использование вычислительных мощностей. Это удобно для пилотов и быстрых MVP (Minimum Viable Product — минимально жизнеспособный продукт), где важна скорость запуска.
Когда стоит переходить на собственные LLM-модели
Рассмотрим пример сценария со 100 тыс. текстовых диалогов в сутки, где каждый диалог состоит из трех сообщений от пользователя. Средний объем — около 900 токенов на входящий запрос и 1,2 тыс. токенов — на исходящий ответ нейросети. В сутки это создает нагрузку примерно 1,16 RPS (запросов в секунду), а в пиковые часы — до 5,63 RPS.
При использовании версии Chat GPT 4o-mini стоимость работы модели составит примерно $84,49 в день или $2 535 в месяц. Для обеспечения такой же производительности на облачную платформу, специально заточенную под задачи ИИ, машинного обучения и работы с GPU (RunPod) понадобится шесть графических процессоров Nvidea A100 по цене $1,89 в час каждая — около $8 165 в месяц.
Если рассматривать покупку собственного оборудования, то шесть GPU A100 и два серверных корпуса обойдутся примерно в $106 тыс. Ежемесячные расходы на колокейшн и электроэнергию составят около $640, амортизация — $2 945, общие затраты — $3 585 в месяц.
При текущем объеме запросов локальное размещение примерно на 40% дороже использования Chat GPT 4o-mini, но окупается по сравнению с арендой A100 на RunPod за 14 месяцев.
Локальная инфраструктура становится выгодной при объеме свыше 140 тыс. диалогов в день, а также в случаях, когда приоритетом являются защита данных, соответствие требованиям GDPR (General Data Protection Regulation) и 152-ФЗ («О персональных данных»), стабильность работы без ограничений API и независимость от вендора.
Главные риски — зависимость от внешних провайдеров и вопросы хранения данных. При работе с зарубежными сервисами появляется угроза трансграничной передачи персональных данных, а при выборе российских — ограничение по мощности и качеству моделей.
Итого: вам потребуется $2 535 в месяц при использовании Chat GPT 4o-mini и около $8 165 в месяц — при использовании специализированной облачной платформы. При варианте создания локальной инфраструктуры капитальные единовременные затраты составят $106 тыс., а ежемесячные расходы на работу оборудования — $3 585. Техподдержка оборудования в течение года обойдется в $10–20 тыс.
Оркестратор: как управлять логикой поверх LLM
Сама по себе LLM не решает бизнес-задачи. Она может сгенерировать ответ, но не понимает, что делать с ним дальше, куда записать данные, что отправить клиенту, какие правила компании учесть. Чтобы превратить модель в настоящего агента, нужен оркестратор — программный уровень, который управляет логикой и связывает ИИ с корпоративными системами.
К оркестратору подключатся кастомные LLM-модели. Он принимает результаты работы модели и направляет их в нужные процессы (CRM, ERP, Helpdesk, HR-системы). Через него строятся сценарии, вызовы для интерфейса программирования приложений (API) и реакции на события. По сути, это движок бизнес-автоматизации, где LLM становится только одной из частей.
Стоимость установки оркестратора начинается примерно от 700 тыс. руб. и может достигать нескольких миллионов в зависимости от требований к производительности, интеграциям и уровню соглашения об уровне сервиса с провайдером. Эта сумма покрывает установку ПО на сервер, без настройки авторизации или сценариев. Если данные не должны покидать корпоративный контур, оркестратор разворачивают on-premise.
Разработка сценариев автоматизации
Когда инфраструктура и оркестратор готовы, можно начинать строить сценарии, по которым агент будет действовать. От того, насколько грамотно они выстроены, зависит эффективность всей системы.
Современные платформы для создания ИИ-агентов позволяют собирать автоматизации в визуальных конструкторах — low/no-code интерфейсах, где процессы строятся из блоков и связей без программирования. Для сложных сценариев добавляются кодовые модули — небольшие скрипты, которые расширяют возможности логики.
По опыту, настройка сценариев занимает около 100 часов в месяц, а средняя ставка специалиста — 5 тыс. руб. в час. То есть внешняя команда обходится примерно в 500 тыс. руб. в месяц. При работе внутренними ресурсами сумма может быть в два раза меньше. В среднем один специалист обходится компании в 200–400 тыс. руб. ежемесячно в зависимости от формата работы.
Execution: плата за выполнение сценариев
Каждое действие ИИ-агента в оркестраторе — это транзакция, или execution. Отправка запроса, обращение к базе, вызов API, генерация ответа — все это отдельные варианты исполнения сценария (executions), которые суммируются в ежемесячный объем. Здесь многие компании впервые сталкиваются с непредсказуемыми расходами: чем активнее агент работает, тем дороже обходится его эксплуатация.
В коммерческих оркестраторах тарификация строится по числу операций. Например, 500 тыс. executions в месяц стоят около $3,5 тыс., а 10 млн — примерно $50 тыс.
При увеличении объема цена снижается нелинейно: чем больше транзакций, тем дешевле обходится каждая. Это стимулирует крупные компании автоматизировать больше процессов, чтобы нагрузка распределялась равномерно и себестоимость снижалась.
Есть несколько форматов оплаты execution-транзакций:
- SaaS-тарифы по объему (оплата за каждую тысячу или миллион операций);
- Фиксированные лицензии;
- Безлимитные пакеты.
Для небольших команд существуют open-source решения, которые можно использовать бесплатно, но они не имеют корпоративной поддержки и все риски ложатся на клиента.
Поддержка и эксплуатация
После внедрения ИИ-агента затраты не заканчиваются, а переходят в стадию обслуживания. Любая инфраструктура требует обновлений и мониторинга. Этот слой бюджета часто недооценивают, хотя именно от него зависит, насколько надежно агент будет работать в реальных условиях.
В локальных установках (on-prem) компания сама отвечает за эксплуатацию оборудования и программной части. Годовое обслуживание серверов и инфраструктуры обычно составляет 10–20% от их стоимости. Это включает в себя техподдержку, обновления, замену комплектующих и мониторинг.
Кроме того, нужны специалисты, которые следят за производительностью моделей и исправляют сбои. Если инфраструктура простаивает хотя бы несколько часов, бизнес-процессы могут остановиться, поэтому важно предусмотреть систему мониторинга 24/7.
В облачных решениях эти задачи берет на себя провайдер. В стоимость тарифа обычно входит SLA (Service Level Agreement) — договоренность о времени реакции и восстановлении сервиса при сбое. Чем выше класс SLA, тем дороже тариф, но тем меньше операционных рисков для компании.
Итого:
- Если компания использует облачные модели (например, ChatGPT 4o-mini), итоговые расходы зависят от объема запросов. С 100 тыс. диалогов в сутки стоимость составляет $2535 в месяц при использовании GPT 4o-mini с оплатой за токены и $8 165 в месяц — при размещении собственной модели на облачной GPU-платформе уровня RunPod.
- За разворачивание модели внутри собственного контура нужно потратить $106 000 за комплект из шести GPU A100 и двух серверных корпусов. Ежемесячные затраты на эксплуатацию составят $3 585, включая колокейшн, обслуживание и амортизацию оборудования. Вложения окупятся при больших объемах (от 140 тыс. диалогов в день и выше).
- Техподдержка и обслуживание модели — обязательная статья расходов независимо от того, где работает LLM. Поддержка модели внутри собственного контура обойдется в $10–20 тыс. В облачных решениях техподдержка включена в тариф провайдера и зависит от класса SLA.