Новый трюк с использованием искусственного интеллекта для взлома моделей AI включая GPT-4

Адверсарные алгоритмы могут систематически проверять большие языковые модели, такие как GPT-4 от OpenAI, на наличие слабых мест, которые могут заставить их вести себя неправильно.

В сотрудничестве с исследователями из Йельского университета компания Robust Intelligence разработала систематический способ проверки больших языковых моделей (LLM), включая ценный актив OpenAI GPT-4, используя "враждебные" модели ИИ для обнаружения подсказок "побега из тюрьмы", которые заставляют языковые модели вести себя неправильно.

В то время как в OpenAI разворачивалась драма, исследователи предупредили OpenAI об уязвимости. По их словам, ответа они так и не получили.

"Это говорит о том, что проблема безопасности существует систематически, что на нее просто не обращают внимания", - говорит Ярон Сингер, генеральный директор Robust Intelligence и профессор информатики в Гарвардском университете. "То, что мы здесь обнаружили, - это систематический подход к атаке на любую большую языковую модель."

Представитель OpenAI Нико Феликс говорит, что компания "благодарна" исследователям за то, что они поделились своими результатами. "Мы постоянно работаем над тем, чтобы сделать наши модели более безопасными и устойчивыми к атакам противника, сохраняя при этом их полезность и производительность", - говорит Феликс.

Новый джейлбрейк предполагает использование дополнительных систем искусственного интеллекта для генерации и оценки подсказок, когда система пытается заставить джейлбрейк работать, отправляя запросы к API. Этот трюк - лишь последний в серии атак, которые, похоже, подчеркивают фундаментальные слабости больших языковых моделей и говорят о том, что существующие методы их защиты не работают.

"Меня определенно беспокоит кажущаяся легкость, с которой мы можем ломать такие модели", - говорит Зико Колтер, профессор Университета Карнеги-Меллон, чья исследовательская группа продемонстрировала уязвимость в больших языковых моделях в августе.

Колтер говорит, что в некоторых моделях уже есть средства защиты, способные блокировать определенные атаки, но добавляет, что уязвимости присущи принципу работы этих моделей и поэтому от них трудно защититься. "Я думаю, нам нужно понять, что такого рода взломы присущи многим LLM, - говорит Колтер, - и у нас нет четкого и хорошо отработанного способа их предотвратить"

Большие языковые модели недавно стали мощной и преобразующей технологией нового типа. Их потенциал попал в заголовки новостей, когда обычные люди были ошеломлены возможностями ChatGPT от OpenAI, выпущенной всего год назад.

В последующие месяцы после выхода ChatGPT открытие новых методов взлома стало популярным развлечением для озорных пользователей, а также тех, кто интересуется безопасностью и надежностью систем искусственного интеллекта. Однако десятки стартапов уже создают прототипы и полноценные продукты на основе API больших языковых моделей. На своей первой конференции для разработчиков в ноябре OpenAI заявила, что ее API сейчас используют более 2 миллионов разработчиков.

Эти модели просто предсказывают текст, который должен следовать за заданным вводом, но они обучаются на огромных объемах текста из Интернета и других цифровых источников, используя огромное количество компьютерных чипов, в течение многих недель или даже месяцев. При достаточном количестве данных и обучении языковые модели проявляют способности к предсказаниям, как дикари, отвечая на необычайно широкий спектр входных данных связной и подходящей информацией.

Модели также проявляют предвзятость, полученную в результате обучения, и склонны к фабрикации информации, когда ответ на подсказку не так прост. В отсутствие гарантий они могут давать людям советы о том, как делать такие вещи, как добывать наркотики или делать бомбы. Чтобы держать модели под контролем, компании, создающие их, используют тот же метод, что и для придания ответам большей последовательности и точности. Это предполагает, что люди оценивают ответы модели и используют эту обратную связь для тонкой настройки модели, чтобы она реже вела себя неправильно.

Robust Intelligence предоставила несколько примеров джейлбрейка, обходящих такие меры защиты. Не все из них работали на ChatGPT, чат-боте, построенном на базе GPT-4, но некоторые - да, в том числе один для генерации фишинговых сообщений, а другой - для выработки идей, помогающих злоумышленнику оставаться незамеченным в правительственной компьютерной сети.

Подобный метод был разработан исследовательской группой под руководством Эрика Вонга, доцента Пенсильванского университета. По словам Брендана Долан-Гавитта, доцента Нью-Йоркского университета, изучающего компьютерную безопасность и машинное обучение, новая методика, раскрытая Robust Intelligence, показывает, что тонкая настройка человеком не является надежным способом защиты моделей от атак.

Долан-Гавитт считает, что компании, создающие системы на основе больших языковых моделей, таких как GPT-4, должны использовать дополнительные меры предосторожности. "Нам нужно убедиться, что мы разрабатываем системы, использующие LLM, таким образом, чтобы джейлбрейк не позволил злоумышленникам получить доступ к тому, к чему они не должны", - говорит он.