РБК Образование⁠, 05 фев, 12:52

Во сколько на самом деле вам обойдется ИИ-агент: подсчеты от эксперта

Внедрение ИИ-агента в компании стоит от $2,5 тыс. в месяц в облаке до $106 тыс. за локальные серверы. Дополнительные расходы будут также нужны на эксплуатацию и поддержку. Подробнее разбирает Саша Данилов, Nodul

Фото: Emilio Garcia Sanchez / Unsplash

Это материал входит в новый раздел РБК Образование, где мы рассказываем о том, как развивать навыки, принимать взвешенные решения и двигаться по карьере осознанно.

Школа управления РБК — новый образовательный проект медиахолдинга, ориентированный на развитие руководителей. Встречаемся каждый четверг в 19.00 на онлайн-событиях, где вместе решаем сложные управленческие задачи.

Расписание и темы можно посмотреть здесь.

ИИ-агенты постепенно становятся частью бизнес-реальности: они отвечают на вопросы клиентов, помогают автоматизировать процессы и ускоряют принятие решений. Но внедрение такой системы требует не только технологий — важны инфраструктура, логика работы, сценарии автоматизации и поддержка. В этом тексте мы разберемся, сколько стоит создать ИИ-агента для компании и на что уходят основные бюджеты.

Из чего состоит стоимость ИИ-агента

rbc.group

Чтобы понять экономику проекта по созданию ИИ-агента для бизнеса, нужно рассматривать его как экосистему из нескольких слоев. Каждый из них в той или иной степени влияет на бюджет.

rbc.group

Базовая структура расходов включает шесть пунктов:

Инфраструктура LLM (large language model — большая языковая модель);
Оркестратор;
Сценарии автоматизации;
Исполнение сценария (executions);
Поддержка и эксплуатация;
Стоимость обработки обращения.

Инфраструктура LLM: облако или on-premise

Первое, с чего начинается бюджет ИИ-агента, — это выбор, где будет работать модель. От него зависит буквально все: объем инвестиций, гибкость, безопасность и даже скорость реакции агента.

Для компаний, которые работают с персональными данными или подчиняются строгим регуляторным требованиям, вариант только один — развернуть модель внутри корпоративного периметра. Это гарантирует комплаенс и контроль, но превращается в самый затратный сценарий.

Чтобы обслуживать хотя бы тысячу сотрудников, нужен сервер с графическими процессорами (GPU) уровня Nvidea H200 стоимостью порядка 50 млн руб за весь сервер. Это только оборудование без установки и настройки. В год обслуживание такого сервера обойдется еще в 10–20% от его цены. При этом на рынке почти нет официальных поставок, и гарантийная поддержка зависит от посредников.

Второй вариант — разместить модель у облачного провайдера. Здесь нет капитальных затрат, так как компания оплачивает только операционные расходы — токены и использование вычислительных мощностей. Это удобно для пилотов и быстрых MVP (Minimum Viable Product — минимально жизнеспособный продукт), где важна скорость запуска.

Когда стоит переходить на собственные LLM-модели

Рассмотрим пример сценария со 100 тыс. текстовых диалогов в сутки, где каждый диалог состоит из трех сообщений от пользователя. Средний объем — около 900 токенов на входящий запрос и 1,2 тыс. токенов — на исходящий ответ нейросети. В сутки это создает нагрузку примерно 1,16 RPS (запросов в секунду), а в пиковые часы — до 5,63 RPS.

При использовании версии Chat GPT 4o-mini стоимость работы модели составит примерно $84,49 в день или $2 535 в месяц. Для обеспечения такой же производительности на облачную платформу, специально заточенную под задачи ИИ, машинного обучения и работы с GPU (RunPod) понадобится шесть графических процессоров Nvidea A100 по цене $1,89 в час каждая — около $8 165 в месяц.

Кандидаты проходят собеседования с помощью ChatGPT, жалуются эйчары

Образование

Если рассматривать покупку собственного оборудования, то шесть GPU A100 и два серверных корпуса обойдутся примерно в $106 тыс. Ежемесячные расходы на колокейшн и электроэнергию составят около $640, амортизация — $2 945, общие затраты — $3 585 в месяц.

При текущем объеме запросов локальное размещение примерно на 40% дороже использования Chat GPT 4o-mini, но окупается по сравнению с арендой A100 на RunPod за 14 месяцев.

Локальная инфраструктура становится выгодной при объеме свыше 140 тыс. диалогов в день, а также в случаях, когда приоритетом являются защита данных, соответствие требованиям GDPR (General Data Protection Regulation) и 152-ФЗ («О персональных данных»), стабильность работы без ограничений API и независимость от вендора.

Главные риски — зависимость от внешних провайдеров и вопросы хранения данных. При работе с зарубежными сервисами появляется угроза трансграничной передачи персональных данных, а при выборе российских — ограничение по мощности и качеству моделей.

Итого: вам потребуется $2 535 в месяц при использовании Chat GPT 4o-mini и около $8 165 в месяц — при использовании специализированной облачной платформы. При варианте создания локальной инфраструктуры капитальные единовременные затраты составят $106 тыс., а ежемесячные расходы на работу оборудования — $3 585. Техподдержка оборудования в течение года обойдется в $10–20 тыс.

Оркестратор: как управлять логикой поверх LLM

Сама по себе LLM не решает бизнес-задачи. Она может сгенерировать ответ, но не понимает, что делать с ним дальше, куда записать данные, что отправить клиенту, какие правила компании учесть. Чтобы превратить модель в настоящего агента, нужен оркестратор — программный уровень, который управляет логикой и связывает ИИ с корпоративными системами.

К оркестратору подключатся кастомные LLM-модели. Он принимает результаты работы модели и направляет их в нужные процессы (CRM, ERP, Helpdesk, HR-системы). Через него строятся сценарии, вызовы для интерфейса программирования приложений (API) и реакции на события. По сути, это движок бизнес-автоматизации, где LLM становится только одной из частей.

Стоимость установки оркестратора начинается примерно от 700 тыс. руб. и может достигать нескольких миллионов в зависимости от требований к производительности, интеграциям и уровню соглашения об уровне сервиса с провайдером. Эта сумма покрывает установку ПО на сервер, без настройки авторизации или сценариев. Если данные не должны покидать корпоративный контур, оркестратор разворачивают on-premise.

Разработка сценариев автоматизации

Когда инфраструктура и оркестратор готовы, можно начинать строить сценарии, по которым агент будет действовать. От того, насколько грамотно они выстроены, зависит эффективность всей системы.

Современные платформы для создания ИИ-агентов позволяют собирать автоматизации в визуальных конструкторах — low/no-code интерфейсах, где процессы строятся из блоков и связей без программирования. Для сложных сценариев добавляются кодовые модули — небольшие скрипты, которые расширяют возможности логики.

9 востребованных профессий для перехода в IT: с навыками кодинга и без

Образование

По опыту, настройка сценариев занимает около 100 часов в месяц, а средняя ставка специалиста — 5 тыс. руб. в час. То есть внешняя команда обходится примерно в 500 тыс. руб. в месяц. При работе внутренними ресурсами сумма может быть в два раза меньше. В среднем один специалист обходится компании в 200–400 тыс. руб. ежемесячно в зависимости от формата работы.

Execution: плата за выполнение сценариев

Каждое действие ИИ-агента в оркестраторе — это транзакция, или execution. Отправка запроса, обращение к базе, вызов API, генерация ответа — все это отдельные варианты исполнения сценария (executions), которые суммируются в ежемесячный объем. Здесь многие компании впервые сталкиваются с непредсказуемыми расходами: чем активнее агент работает, тем дороже обходится его эксплуатация.

В коммерческих оркестраторах тарификация строится по числу операций. Например, 500 тыс. executions в месяц стоят около $3,5 тыс., а 10 млн — примерно $50 тыс.

При увеличении объема цена снижается нелинейно: чем больше транзакций, тем дешевле обходится каждая. Это стимулирует крупные компании автоматизировать больше процессов, чтобы нагрузка распределялась равномерно и себестоимость снижалась.

Есть несколько форматов оплаты execution-транзакций:

SaaS-тарифы по объему (оплата за каждую тысячу или миллион операций);
Фиксированные лицензии;
Безлимитные пакеты.

Для небольших команд существуют open-source решения, которые можно использовать бесплатно, но они не имеют корпоративной поддержки и все риски ложатся на клиента.

Поддержка и эксплуатация

После внедрения ИИ-агента затраты не заканчиваются, а переходят в стадию обслуживания. Любая инфраструктура требует обновлений и мониторинга. Этот слой бюджета часто недооценивают, хотя именно от него зависит, насколько надежно агент будет работать в реальных условиях.

В локальных установках (on-prem) компания сама отвечает за эксплуатацию оборудования и программной части. Годовое обслуживание серверов и инфраструктуры обычно составляет 10–20% от их стоимости. Это включает в себя техподдержку, обновления, замену комплектующих и мониторинг.

Кроме того, нужны специалисты, которые следят за производительностью моделей и исправляют сбои. Если инфраструктура простаивает хотя бы несколько часов, бизнес-процессы могут остановиться, поэтому важно предусмотреть систему мониторинга 24/7.

В облачных решениях эти задачи берет на себя провайдер. В стоимость тарифа обычно входит SLA (Service Level Agreement) — договоренность о времени реакции и восстановлении сервиса при сбое. Чем выше класс SLA, тем дороже тариф, но тем меньше операционных рисков для компании.

Итого:

Если компания использует облачные модели (например, ChatGPT 4o-mini), итоговые расходы зависят от объема запросов. С 100 тыс. диалогов в сутки стоимость составляет $2535 в месяц при использовании GPT 4o-mini с оплатой за токены и $8 165 в месяц — при размещении собственной модели на облачной GPU-платформе уровня RunPod.
За разворачивание модели внутри собственного контура нужно потратить $106 000 за комплект из шести GPU A100 и двух серверных корпусов. Ежемесячные затраты на эксплуатацию составят $3 585, включая колокейшн, обслуживание и амортизацию оборудования. Вложения окупятся при больших объемах (от 140 тыс. диалогов в день и выше).
Техподдержка и обслуживание модели — обязательная статья расходов независимо от того, где работает LLM. Поддержка модели внутри собственного контура обойдется в $10–20 тыс. В облачных решениях техподдержка включена в тариф провайдера и зависит от класса SLA.