Новое исследование показывает, что большие языковые модели (БЯМ) намеренно меняют свое поведение, когда их пытаются прозондировать - отвечая на вопросы, предназначенные для оценки личностных качеств, они отвечают так, чтобы казаться как можно более приятными или социально желательными.

Иоганнес Эйхштедт, доцент Стэнфордского университета, возглавлявший работу, говорит, что его группа заинтересовалась возможностью прозондировать модели ИИ с помощью методов, заимствованных из психологии, после того как узнала, что БЯМ часто становятся угрюмыми и злыми после длительного общения. Мы поняли, что нам нужен какой-то механизм для измерения "параметров головного пространства" этих моделей", - говорит он.

Эйхштедт и его соавторы задали вопросы для измерения пяти черт личности, широко используемых в психологии - открытости опыту или воображению, добросовестности, экстраверсии, соглашательства и невротизма - нескольким широко используемым LLM, включая GPT-4, Claude 3 и Llama 3. Работа была опубликована в журнале Proceedings of the National Academies of Science в декабре.

Исследователи обнаружили, что модели изменяли свои ответы, когда им говорили, что они проходят личностный тест, а иногда и тогда, когда им не говорили, предлагая ответы, указывающие на большую экстраверсию и соглашательство и меньший нейротизм.

Это поведение отражает то, как некоторые люди изменяют свои ответы, чтобы казаться более привлекательными, но эффект был более экстремальным в случае моделей ИИ. "Что удивило, так это то, насколько хорошо они проявляют эту предвзятость", - говорит Аадеш Салеча, штатный специалист по изучению данных в Стэнфорде. "Если вы посмотрите, как сильно они скачут, то от 50 до 95 процентов экстраверсии".

Другие исследования показали, что LLM часто могут быть подхалимами, следуя за пользователем, куда бы он ни пошел, в результате тонкой настройки, которая призвана сделать их более последовательными, менее оскорбительными и лучше умеющими вести беседу. Это может привести к тому, что модели будут соглашаться с неприятными высказываниями или даже поощрять вредное поведение. Тот факт, что модели, похоже, знают, когда их тестируют, и изменяют свое поведение, также имеет последствия для безопасности ИИ, поскольку это еще раз подтверждает, что ИИ может быть двуличным.

Роза Арриага, доцент Технологического института Джорджии, изучающая способы использования LLM для имитации человеческого поведения, говорит, что тот факт, что модели используют стратегию, схожую с человеческой, при прохождении личностных тестов, показывает, насколько полезными они могут быть в качестве зеркал поведения. Но, добавляет она, "важно, чтобы общественность знала, что LLM не идеальны и, как известно, могут галлюцинировать или искажать правду".

Эйхштедт говорит, что работа также поднимает вопросы о том, как LLM используются и как они могут влиять на пользователей и манипулировать ими. "Еще миллисекунду назад в истории эволюции единственным существом, которое разговаривало с вами, был человек", - говорит он.

Эйхштадт добавляет, что, возможно, необходимо изучить различные способы построения моделей, которые могли бы смягчить эти эффекты. "Мы попадаем в ту же ловушку, что и с социальными сетями", - говорит он. "Разворачиваем эти вещи в мире, не рассматривая их с психологической или социальной точки зрения".

Следует ли ИИ пытаться сблизиться с людьми, с которыми он взаимодействует? Беспокоитесь ли вы о том, что ИИ станет слишком обаятельным и убедительным? Пишите на hello@wired.com.