Илья Суцкевер из OpenAI разработал план по сдерживанию сверхинтеллектуального ИИ

Команда Superalignment, возглавляемая главным научным сотрудником OpenAI Ильей Суцкевером, придумала, как направлять поведение моделей ИИ по мере того, как они становятся все умнее.

OpenAI была основана на обещании создать искусственный интеллект, который принесет пользу всему человечеству - даже если этот ИИ станет значительно умнее своих создателей. После дебюта ChatGPT в прошлом году и во время недавнего кризиса управления компанией ее коммерческие амбиции стали более заметными. Теперь компания заявляет, что новая исследовательская группа, работающая над созданием сверхумных ИИ будущего, начинает приносить плоды.

"AGI очень быстро приближается", - говорит Леопольд Ашенбреннер, исследователь OpenAI, участвующий в работе созданной в июле исследовательской группы Superalignment. "Мы увидим сверхчеловеческие модели, у них будут огромные возможности, и они могут быть очень, очень опасны, а у нас пока нет методов их контроля". OpenAI заявила, что выделит пятую часть своих вычислительных мощностей на проект Superalignment.

В исследовательском документе, опубликованном OpenAI сегодня, рассказывается о результатах экспериментов, направленных на проверку способа, позволяющего более низкой модели ИИ направлять поведение гораздо более умной модели, не делая ее менее умной. Несмотря на то, что технология, о которой идет речь, далеко не превосходит гибкость человека, сценарий был разработан для будущего, когда людям придется работать с системами ИИ, более интеллектуальными, чем они сами.

Исследователи OpenAI изучили процесс, называемый супервизией, который используется для настройки таких систем, как GPT-4, большая языковая модель, лежащая в основе ChatGPT, чтобы быть более полезной и менее вредной. В настоящее время этот процесс заключается в том, что человек дает системе ИИ обратную связь о том, какие ответы являются хорошими, а какие - плохими. По мере развития ИИ исследователи изучают возможности автоматизации этого процесса, чтобы сэкономить время, а также потому, что, по их мнению, по мере роста мощности ИИ человек может оказаться не в состоянии обеспечить полезную обратную связь.

В контрольном эксперименте с использованием генератора текста OpenAI GPT-2, впервые выпущенного в 2019 году, для обучения GPT-4, более современная система стала менее способной и похожей на более слабую систему. Исследователи проверили две идеи, как это исправить. Одна из них включала в себя обучение все более крупных моделей, чтобы снизить потери производительности на каждом шаге. В другом случае команда добавила в GPT-4 алгоритмический твик, который позволил более сильной модели следовать указаниям более слабой модели, не снижая ее производительность так сильно, как это обычно происходит. Это было более эффективно, хотя исследователи признают, что эти методы не гарантируют, что более сильная модель будет вести себя идеально, и описывают их как отправную точку для дальнейших исследований.

"Это' здорово, что OpenAI активно решает проблему контроля над сверхчеловеческими ИИ", - говорит Дэн Хендрикс, директор Центра безопасности ИИ, некоммерческой организации в Сан-Франциско, занимающейся управлением рисками ИИ. "Нам понадобятся долгие годы целенаправленных усилий, чтобы решить эту задачу".

Ашенбреннер и два других члена команды Superintelligence, с которыми мы беседовали, Коллин Бернс и Павел Измайлов, говорят, что они воодушевлены тем, что считают важным первым шагом на пути к укрощению потенциальных сверхчеловеческих ИИ. "Даже если шестиклассник знает математику хуже, чем математик из колледжа, он все равно может донести до студента колледжа то, чего он хочет добиться", - говорит Измайлов. "Этого мы и пытаемся добиться".

Группу Superalignment возглавляет Илья Суцкевер, соучредитель OpenAI, главный ученый и один из членов совета директоров, который в прошлом месяце проголосовал за увольнение генерального директора Сэма Альтмана, а затем отказался от своих слов и пригрозил уволиться, если его не восстановят в должности. Суцкевер является соавтором опубликованной сегодня статьи, но OpenAI отказалась предоставить его для обсуждения проекта.

После того как Альтман вернулся в OpenAI в прошлом месяце в рамках соглашения, по которому большинство членов совета директоров ушли в отставку, будущее Суцкевера в компании казалось неопределенным.

"Мы очень благодарны Илье", - говорит Ашенбреннер. "Он был огромной мотивацией и движущей силой проекта".

Исследователи OpenAI - не первые, кто пытается использовать технологии ИИ сегодняшнего дня для тестирования методов, которые могут помочь укротить системы ИИ завтрашнего дня. Как и в предыдущих работах в корпоративных и академических лабораториях, невозможно предугадать, будут ли идеи, сработавшие в тщательно спланированном эксперименте, практичными в будущем. Исследователи называют возможность обучения более слабой модели ИИ более сильной, которую они пытаются усовершенствовать, "ключевым элементом для более широкой проблемы суперсогласования".

Эксперименты по так называемому выравниванию ИИ также поднимают вопросы о том, насколько надежной может быть любая система управления. Суть новых методик OpenAI заключается в том, что более мощная система ИИ сама решает, какие указания более слабой системы можно игнорировать, что может привести к отсеиванию информации, которая не позволит ей в будущем вести себя небезопасно. Чтобы такая система была полезной, необходимо добиться прогресса в обеспечении гарантий согласованности. "В конечном итоге вам потребуется очень высокая степень доверия", - говорит Бернс, третий член команды OpenAI.

Стюарт Рассел, профессор Калифорнийского университета в Беркли, занимающийся вопросами безопасности ИИ, говорит, что идея использования менее мощной модели ИИ для управления более мощной возникла уже давно. Он также говорит, что пока неясно, являются ли существующие методы обучения искусственного интеллекта поведению путем вперед, поскольку они не смогли заставить текущие модели вести себя надежно.

Хотя OpenAI и заявляет о первом шаге к контролю над более продвинутыми ИИ, компания также стремится заручиться помощью со стороны. Сегодня компания объявила, что совместно с Эриком Шмидтом, влиятельным инвестором и бывшим генеральным директором Google, выделит 10 миллионов долларов в виде грантов сторонним исследователям, которые предложат дальнейшие достижения в таких областях, как контроль от слабого к сильному, интерпретируемость продвинутых моделей и защита моделей от подсказок, призванных нарушить их ограничения. По словам исследователей, участвовавших в работе над новой статьей, в следующем году OpenAI проведет конференцию, посвященную супервыравниванию.

Сутскевер, соучредитель OpenAI и соруководитель команды Superalignment, возглавлял большую часть наиболее важных технических работ компании и входит в число видных деятелей ИИ, которых все больше волнует вопрос о том, как контролировать ИИ по мере того, как он становится все более мощным. Вопрос о том, как контролировать будущие технологии ИИ, привлек к себе новое внимание в этом году, во многом благодаря ChatGPT. Суцкевер учился в аспирантуре у Джеффри Хинтона, пионера глубоких нейронных сетей, который в мае этого года покинул Google, чтобы предупредить о темпах, с которыми ИИ, похоже, приближается к человеческому уровню в некоторых задачах.