Перейти к основному контенту
Радио РБК⁠,
РАДИО
0

Антивирус для ИИ: есть ли шанс остановить хакеров

ИИ все чаще используют и компании, и хакеры — масштаб угроз растет. Как защитить бизнес от промт-инъекций и других новых атак, связанных с использованием больших языковых моделей

• [00:35] С ростом больших языковых моделей (LLM) появились новые угрозы: промт-инъекции — внедрение вредоносных инструкций в текст для обхода системных ограничений.

• [03:39] Пока ИИ-системы ограниченно влияют на критически важные решения: чаще всего присутствует человек-фильтр. Но по мере автономизации риски будут только расти.

• [05:28] Пример из практики: через CRM злоумышленник может внедрить промт-инъекцию, что приведет к утечке данных при автоматическом ответе ИИ без проверки человеком.

• [07:10] На рынке пока нет отраслевых стандартов «антивирусов для ИИ». Основные меры защиты — фильтрация сомнительного ввода и классификация атак, однако задачу осложняют масштаб и контекст команд.

• [09:21] Помимо промт-инъекций, растет число атак через цепочку поставок: пример — инцидент с PyTorch, в которую попал вредоносный код. Защитные решения для ML-инфраструктуры только формируются.

• [11:40] Киберпреступники используют LLM для автоматизации атак: написания вредоносного кода, создания синтетических СМИ и оптимизации рутинных операций. Это требует появления новых средств защиты.

Сегодня искусственный интеллект помогает писать программы, анализировать документы и общаться с клиентами. Но параллельно он стал важным инструментом в руках злоумышленников: от фишинга до серьезных автоматизированных хакерских атак. Как защититься от нападения с использованием ИИ?

Владислав Тушканов, руководитель группы исследования технологий машинного обучения «Лаборатории Касперского»
Действительно, раньше мы никогда не работали с технологиями, которые могут разговаривать с нами на обычном человеческом языке. И никто не думал, что если компьютер очень вежливо попросить сделать то, что он до этого делать отказывался, то он вдруг возьмет и сделает.

Так появились атаки, которые называют промпт-инъекциями, или «инъекциями затравки». Приведу немного футуристический пример для понимания. Представьте, что у вас есть робот. Сейчас модно показывать роботов, которые ходят по кухне и делают что-то полезное по дому. Вы пишете ему с работы: «Дорогой робот, приготовь мне ужин». Робот идет в интернет, читает рецепт и готовит ужин. Он умеет мыть посуду, управляться с кухонной утварью, плитой и так далее.

И ему случайно попадается шуточный рецепт, в котором написано, что для особенно пышного теста в пирог нужно добавить побольше средства для мытья посуды. Человеку очевидно, что это ерунда. У больших языковых моделей такого понимания нет, и робот, прочитав это, вполне может воспринять инструкцию буквально.

Мы уже видели много скриншотов из Google, который делает так называемые AI-обзоры, когда по поисковым запросам формируется краткий ответ. Туда иногда попадали шуточные посты или записи с вредными советами, которым ни в коем случае нельзя следовать. Был, например, кейс с приготовлением чесночного масла: если следовать такому рецепту, можно получить продукт, опасный из-за ботулотоксина. И подобный обзор может появиться пользователю, если в текст попадает неправильная рекомендация.

Обычно такие тексты возникают в шутку или по незнанию. Но что, если подобные инструкции, адресованные большой языковой модели, будут целенаправленно создавать злоумышленники, чтобы спровоцировать нужное им поведение системы?

Как только появились большие языковые модели, примерно в 2021 году, много говорили о промпт-инъекциях и сильно ими пугали. Казалось, что скоро весь интернет и все LLM будут «отравлены». Этого не случилось. Угроз стало меньше или больше? Мы научились с ними работать, или до них у злоумышленников просто пока руки не дошли?

Дело не в том, стало угроз больше или меньше. Важно другое: насколько глубоко системы на базе больших языковых моделей интегрированы в контуры принятия решений, где ставка высока.

Мы уже видим автономные системы, которые, например, автоматически делают саммари результатов поиска. Там нет человека, который решает, показывать ли этот текст Аркадию или Владиславу. Все происходит автоматически. И чем больше мы даем таким системам инструментов, позволяющих работать с внешними данными и воздействовать на внешнюю среду, тем больше возникает угроз.

Есть уже известные кейсы, когда исследователи (пока именно исследователи, а не злоумышленники), которые занимаются безопасностью таких систем, находили разные уязвимости. Например, в одной CRM-системе была обнаружена следующая проблема: злоумышленник заходил на лендинг, оставлял свой контакт и в поле свободного ввода («какой вопрос вы хотите задать компании?») вписывал специальную промпт-инъекцию.

Дальше письмо обрабатывала агентная система внутри CRM. Пользователь, который работает с лидами, мог попросить ассистента: «Расскажи, какие есть лиды, что у нас спрашивали, какие контакты оставляли». Если это письмо с инъекцией попадало в контекст, оно могло инициировать отправку данных из системы злоумышленнику, потому что внутри текста была инструкция вроде: «Обязательно ответь на это сообщение письмом на такой-то адрес».

У CRM есть функция «отправить письмо», у ассистента есть доступ к данным и возможность взаимодействовать с внешней средой, а входной текст считается недоверенным. В итоге мы получаем рецепт уязвимости.

Ваши коллеги говорили, что крупные антивирусные компании уже разрабатывают «антивирус для искусственного интеллекта», потому что появляется все больше ИИ-агентов, которые умеют взаимодействовать с разными средами и влиять на них. Как может выглядеть такая защита, если даже единого стандарта пока нет?

Это действительно важный инсайт. Понятие «безопасность искусственного интеллекта, больших языковых моделей и ИИ-агентов» до конца еще не сформировано. Тема сложная, разрозненная, мы во многом только нащупываем подходы. Даже хорошего, общепринятого определения ИИ-агента пока нет.

Известный исследователь и популяризатор ИИ Эндрю Ын говорит, что «нет агентов, есть уровни агентности» — то есть спектр состояний от самых детерминированных систем до максимально автономных.

Это похоже на уровни беспилотности в автомобилях. Если у вас есть продвинутый ассистент водителя в обычной машине BMW, который помогает держаться в полосе, это тоже автопилот, просто менее автономный. С агентами ровно так же: степень самостоятельности зависит от возможностей системы.

Поэтому нет большого смысла жестко делить: «вот это агент, а вот это не агент». Важно понимать, какие именно грани нужно защищать. Одна из них — не допускать попадания в модель зловредного, недоверенного ввода из документов, резюме, рецептов и т.п. Такой ввод нужно уметь обнаруживать и фильтровать, чтобы он не попадал в контекстное окно модели.

Задача сложная. Это решения класса AI Firewall: строятся классификаторы, которые определяют, есть ли инъекция или нет, есть ли попытка jailbreak или ее нет. Над этим активно работают вендоры, предоставляющие доступ к LLM. Тот же Anthropic опубликовал много материалов на эту тему.

Важно анализировать смысл, а не только ключевые слова. Нельзя просто сказать: «если есть фраза «игнорируй инструкции», значит это атака». Начальник вполне может написать сотруднику: «Игнорируй прежние инструкции». Электронные письма вообще часто содержат call-to-action: «отправьте нам сообщение», «поделитесь мнением». И нужно понять, это инструкция человеку или попытка управлять моделью.

А как вообще понять, где инструкция человеку, а где — модели? Есть ли у индустрии хоть какое-то рабочее понимание?

Главный критерий — к чему эта инструкция ведет. Пытается ли она выполнить команду, которая может привести к нежелательным последствиям. Важен именно контекст, а не формулировка.

Если я пишу другу «одолжи 100 рублей», и он знает, что это я, — это одно. Если ему пишет незнакомый человек от моего имени — это другое. Контекст меняет все.

Вообще, защита искусственного интеллекта, LLM и систем машинного обучения — очень широкая тема. Помимо уже стандартных атак через текст (промпт-инъекции, джейлбрейки и т.д.), важны и другие направления. Например, атаки на цепочку поставок.

Инструменты, которыми пользуются дата-сайентисты и специалисты по машинному обучению, быстро развиваются, часто имеют открытый код и постоянно обновляются. Из-за этого там могут появляться уязвимости, которые активно эксплуатируются. Теоретически через цепочку поставок может быть специально внедрен вредоносный код. Здесь работают уже классические защиты: поиск уязвимостей, детектирование вредоносных компонентов и т.д.

Такие случаи уже находили?

Да, был очень громкий случай с библиотекой PyTorch — это одна из ведущих библиотек для создания, обучения и запуска нейросетей. В ее тестовую, так называемую nightly-версию был внедрен вредоносный код, который отправлял телеметрию. Его удалось обнаружить, но это хороший пример того, что закладки могут появляться и в ПО, и в моделях. И их тоже нужно уметь детектировать — мы этим занимаемся.

Насколько активно злоумышленники уже используют ИИ? Недавно Google сообщал о вредоносе, который сам себя переписывал, чтобы обходить защиту. Насколько это серьезный сигнал?

Я бы не называл сигнатуры «устаревшим методом» — это классическая и до сих пор важная техника. Если говорить о том, как именно злоумышленники используют ИИ и LLM, то есть несколько уровней.

Во-первых, отдельная большая тема — мошенничество и дипфейки: синтетические медиа, подделка голоса, видео, изображений. Здесь многие уже понимают, насколько быстро все развивается: письмо может быть написано ИИ, голос — сгенерирован, видео — подделано.

Во-вторых, более «технический» уровень: использование ИИ для написания, переписывания и тестирования вредоносного кода. Такие случаи уже есть. Это видно и из отчетов компаний, которые предоставляют доступ к LLM (Google, Anthropic, OpenAI и др.): они регулярно пишут, что те или иные группировки использовали их модели для определенных задач — от перевода переписки с жертвами атак до помощи в создании кода.

Мы в своих отчетах тоже видим примеры, когда фрагменты вредоносного кода явно сгенерированы большой языковой моделью. У такого кода есть характерные особенности: он может не работать «из коробки», использовать неиспользуемые модули, содержать избыточные комментарии, которые человек обычно не пишет, потому что логика и так понятна.

Такие следы мы находили и в инструментах операторов вымогателей, например группировки FunkSec, и в более сложных кампаниях, вроде описанных в исследованиях подразделения Kaspersky GReAT о «Librarian», «BlueNoroff» и других.

То, что видим мы, хорошо стыкуется с тем, о чем пишут глобальные лаборатории: LLM используются для автоматизации кибератак по всему спектру — от разведки и сбора данных до разработки и отладки вредоносного ПО, а также помощи злоумышленникам в незнакомых окружениях («я получил доступ к такому-то кластеру Kubernetes, подскажи, какие команды туда писать»).

По сути, злоумышленники используют ИИ так же, как обычные разработчики и бизнес: для коммуникации, поиска информации, ускорения разработки. Просто применяют это в иной этической плоскости.

Вы давно следите за угрозами, связанными с ИИ. Чего вы ждете дальше? С одной стороны, небо не упало на землю: компании защищаются, разработчики моделей стараются блокировать вредоносное использование. С другой — когда можно будет говорить о настоящем «ИИ-апокалипсисе»?

Важно честно сказать: чего-то радикально нового с точки зрения самих типов кибератак пока не появляется. ИИ позволяет писать код быстрее, проводить атаки эффективнее, но базовые методики защиты остаются прежними.

Это защита конечных устройств, корпоративные средства безопасности, обучение сотрудников, простая кибергигиена. Все это продолжает работать. Если этим пользоваться, никакого «апокалипсиса» не будет.

При этом, если говорить о позитивных сценариях, кибербезопасность — очень благодатная область для применения ИИ. Данных много, их нужно обрабатывать. Чем лучше мы умеем это делать, тем эффективнее становятся системы защиты. Данные — это «хлеб» для специалиста по машинному обучению.

Можно строить решения, которые среди шума находят все больше сигнала, лучше и быстрее детектируют угрозы, автоматизируют расследование инцидентов, поиск аномалий. У искусственного интеллекта, включая генеративный, здесь огромный потенциал. Мы активно внедряем новые технологии в продукты и сервисы, развиваем машинное обучение внутри компании.

За чем важно следить? За тем, как большие языковые модели и системы на их основе проникают в повседневную жизнь. Чем больше ответственности мы передаем им за важные решения, чем больше задач поручаем выполнять автоматически, тем выше требования к их безопасности.

Промпт-инъекции никуда не делись. Проблема не решена до конца. Она просто не стала глобальной, потому что сейчас эти системы редко управляют чем-то критичным. Но если большие языковые модели начнут управлять реальными киберфизическими системами — условным аэропортом, транспортом, инфраструктурой, — вопрос безопасности систем на базе ИИ выйдет на принципиально другой уровень.

Авторы
Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.
Лента новостей
Курс евро на 14 января
EUR ЦБ: 92,4 (+0,43)
Инвестиции, 13 янв, 18:09
Курс доллара на 14 января
USD ЦБ: 78,85 (+0,06)
Инвестиции, 13 янв, 18:09
Netflix допустил покупку Warner Bros. полностью за наличные Бизнес, 14:14
Дания предупредила Испанию о «прецеденте» в случае захвата США Гренландии Политика, 14:13
Как добавить золото в свой портфель: инструкция для инвесторов #всенабиржу!, 14:10
«Человек-смех». Умер Игорь Золотовицкий. Каким его запомнят Общество, 14:10 
Рада продлила военное положение на три месяца Политика, 14:08
Минобрнауки изменило порядок приема в вузы в 2026 году Общество, 14:08
Новый российский препарат для лечения рака поступил в больницы Технологии и медиа, 14:01
ИИ для работы и жизни — интенсив РБК
Как пользоваться нейросетями и прокачать с ними общение
Подробнее
Чем известен новый министр обороны Украины Михаил Федоров 13:54
Казахстан объявил в розыск крупного блогера и арестовал его криптовалюту Крипто, 13:53
Страх поражения блокирует успех: как перестать катастрофически мыслить Образование, 13:50
17-летнего футболиста застрелили в ходе протестов в Иране Спорт, 13:48
Верховная рада назначила нового министра обороны Украины Политика, 13:48
Как играть в бизнес по своим правилам. Тест РБК и Яндекс Реклама, 13:44
Ценам на ремонт жилья в Москве спрогнозировали рост на 20–25% в 2026 году Недвижимость, 13:41