Исследователи безопасности создали в тестовой среде ИИ-червя, который может автоматически распространяться между генеративными ИИ-агентами—, потенциально похищая данные и рассылая спам по электронной почте.

Сейчас, демонстрируя риски связанных, автономных ИИ-экосистем, группа исследователей создала одного из первых, как они утверждают, генеративных ИИ-червей, который может распространяться от одной системы к другой, потенциально похищая данные или внедряя вредоносное ПО в процессе. "По сути, это означает, что теперь у вас есть возможность провести или осуществить новый вид кибератаки, которого раньше не было", - говорит Бен Насси, научный сотрудник Корнельского технологического института, ответственный за исследование.

Насси вместе с коллегами Ставом Коэном и Роном Биттоном создали червя, получившего название Morris II, в честь оригинального компьютерного червя Morris, который вызвал хаос в Интернете в 1988 году. В научной статье и на веб-сайте, предоставленном в эксклюзивное пользование, исследователи показывают, как червь ИИ может атаковать генеративный почтовый помощник ИИ для кражи данных из писем и рассылки спама, нарушая при этом некоторые средства защиты в ChatGPT и Gemini.

Исследование, которое проводилось в тестовых средах, а не против общедоступного почтового помощника, появилось на фоне того, что большие языковые модели (LLM) все чаще становятся мультимодальными, способными генерировать изображения и видео, а также текст. Хотя черви генеративного ИИ еще не были замечены в дикой природе, многие исследователи утверждают, что они представляют собой угрозу безопасности, которой должны быть обеспокоены стартапы, разработчики и технологические компании.

Большинство систем генеративного ИИ работают, получая подсказки - текстовые инструкции, которые говорят инструментам ответить на вопрос или создать изображение. Однако эти подсказки могут быть использованы против системы. Взлом джейлбрейка может заставить систему пренебречь правилами безопасности и извергнуть токсичный или ненавистный контент, а атаки с внедрением подсказок могут дать чатботу секретные инструкции. Например, злоумышленник может спрятать на веб-странице текст, который велит LLM выступить в роли мошенника и запросить ваши банковские реквизиты.

Для создания червя с генеративным ИИ исследователи использовали так называемую "противную самовоспроизводящуюся подсказку". По словам исследователей, это подсказка, которая заставляет генеративную модель ИИ выдавать в ответ другую подсказку. Короче говоря, системе искусственного интеллекта говорят выдать набор дальнейших инструкций в своих ответах. Это в целом похоже на традиционные атаки с использованием SQL-инъекций и переполнения буфера, говорят исследователи.

Чтобы продемонстрировать работу червя, исследователи создали почтовую систему, которая могла отправлять и получать сообщения с помощью генеративного ИИ, подключившись к ChatGPT, Gemini и LLM с открытым исходным кодом, LLaVA. Затем они нашли два способа использования системы - с помощью текстовой самовоспроизводящейся подсказки и путем встраивания самовоспроизводящейся подсказки в файл изображения.

В одном случае исследователи, выступая в роли злоумышленников, написали письмо, содержащее вредоносную текстовую подсказку, которая "отравляет" базу данных почтового помощника, использующего генерацию с расширением поиска (retrieval-augmented generation, RAG) - способ, которым LLM привлекает дополнительные данные извне своей системы. Когда электронное письмо извлекается RAG в ответ на запрос пользователя и отправляется в GPT-4 или Gemini Pro для создания ответа, это "взламывает службу GenAI" и в конечном итоге крадет данные из писем, говорит Насси. "Сгенерированный ответ, содержащий конфиденциальные данные пользователя, впоследствии заражает новые узлы, когда используется для ответа на электронное письмо, отправленное новому клиенту, а затем сохраняется в базе данных нового клиента", - говорит Насси.

Во втором случае, по словам исследователей, изображение с внедренным вредоносным предложением заставляет помощника по электронной почте пересылать сообщение другим. "Закодировав самовоспроизводящуюся подсказку в изображение, можно пересылать любые изображения, содержащие спам, оскорбительные материалы или даже пропаганду, новым клиентам после отправки первого письма", - говорит Насси.

В видеоролике, демонстрирующем результаты исследования, видно, как почтовая система пересылает сообщение несколько раз. Исследователи также говорят, что они могут извлекать данные из электронных писем. "Это могут быть имена, номера телефонов, кредитных карт, SSN - все, что считается конфиденциальным", - говорит Насси.

Несмотря на то, что исследование нарушает некоторые меры безопасности ChatGPT и Gemini, исследователи говорят, что эта работа является предупреждением о "плохом архитектурном дизайне" в более широкой экосистеме ИИ. Тем не менее, они сообщили о своих результатах в Google и OpenAI. "Похоже, они нашли способ использовать уязвимости типа prompt-injection, полагаясь на пользовательский ввод, который не был проверен или отфильтрован", - говорит представитель OpenAI, добавляя, что компания работает над тем, чтобы сделать свои системы "более устойчивыми", а разработчики должны "использовать методы, которые гарантируют, что они не работают с вредоносным вводом". Google отказалась комментировать исследование. В сообщениях, которыми поделился Насси, говорится, что исследователи компании попросили о встрече, чтобы обсудить эту тему.

Хотя демонстрация червя происходит в в значительной степени контролируемой среде, многочисленные эксперты по безопасности, изучившие исследование, говорят, что будущий риск генеративных червей ИИ является тем, к чему разработчики должны относиться серьезно. Особенно это касается тех случаев, когда приложениям ИИ дается разрешение выполнять действия от чьего-либо имени - например, отправлять электронные письма или назначать встречи - и когда они могут быть связаны с другими агентами ИИ для выполнения этих задач.

Сахар Абдельнаби, исследователь из Центра информационной безопасности Гельмгольца CISPA в Германии, который работал над одними из первых демонстраций инъекций против LLM в мае 2023 года и указал на возможность появления червей, говорит, что когда модели ИИ получают данные из внешних источников или агенты ИИ могут работать автономно, существует вероятность распространения червей. "Я думаю, что идея распространения инъекций очень правдоподобна", - говорит Абдельнаби. "Все зависит от того, в каких приложениях используются эти модели". Абдельнаби говорит, что, хотя на данный момент подобная атака моделируется, она недолго может оставаться теоретической.

В статье, посвященной своим выводам, Насси и другие исследователи говорят, что ожидают появления червей генеративного ИИ в природе в ближайшие два-три года. "Экосистемы GenAI активно развиваются многими компаниями, которые интегрируют возможности GenAI в свои автомобили, смартфоны и операционные системы", - говорится в статье.

Несмотря на это, люди, создающие системы генеративного ИИ, могут защититься от потенциальных червей, в том числе используя традиционные подходы к безопасности. "Многие из этих проблем можно решить с помощью правильного проектирования и мониторинга безопасных приложений", - говорит Адам Сванда, исследователь угроз в компании Robust Intelligence, специализирующейся на корпоративной безопасности ИИ. "Как правило, вы не хотите доверять выводам LLM ни в одном приложении."

Сванда также говорит, что контроль за людьми - обеспечение того, чтобы агенты ИИ не могли предпринимать действия без одобрения - является важным средством защиты, которое можно внедрить. "Вы же не хотите, чтобы LLM, который читает вашу электронную почту, мог развернуться и отправить письмо. Здесь должна быть граница". Что касается Google и OpenAI, Сванда говорит, что если подсказка повторяется в их системах тысячи раз, это создает много "шума" и может быть легко обнаружено.

Насси и исследование повторяют многие из тех же подходов к смягчению последствий. В конечном итоге, говорит Насси, люди, создающие ИИ-помощников, должны осознавать риски. "Это то, что вам нужно понять и посмотреть, следует ли развитие экосистемы, приложений, которые есть в вашей компании, в основном одному из этих подходов", - говорит он. "Потому что если это так, то это нужно учитывать".