Таинственный прорыв под названием Q* на OpenAI

Сообщения о таинственном прорыве под названием Q* на OpenAI вызвали тревожные слухи. Эксперты по искусственному интеллекту говорят, что это, скорее всего, обычная попытка сделать ChatGPT немного умнее.

"Учитывая огромные вычислительные ресурсы, новая модель смогла решить некоторые математические задачи", - сообщает Reuters со ссылкой на один неназванный источник. "Несмотря на то, что математика была на уровне учеников начальной школы, победа в таких тестах вселила в исследователей оптимизм по поводу будущих успехов Q*." Издание The Information сообщило, что Q* рассматривается как прорыв, который приведет к созданию "гораздо более мощных моделей искусственного интеллекта", добавив, что "темпы развития встревожили некоторых исследователей, занимающихся безопасностью ИИ", ссылаясь на один неназванный источник.

Reuters также сообщило, что некоторые исследователи направили письмо, выражающее обеспокоенность потенциальным влиянием Q*, в некоммерческий совет, изгнавший Альтмана, хотя источник, знакомый с ходом мыслей совета, утверждает, что это было не так. И, возможно, отчасти благодаря своему вызывающему заговорщицкие настроения названию, спекуляции вокруг Q* разгорелись в выходные на День благодарения, создавая устрашающую репутацию проекту, о котором мы почти ничего не знаем. Сам Альтман, похоже, подтвердил существование проекта, когда его спросили о Q* в интервью The Verge вчера, сказав: "Никаких особых комментариев по поводу той злополучной утечки."

Чем может быть Q*? Внимательное прочтение первых сообщений и рассмотрение самых горячих проблем в области ИИ на данный момент позволяет предположить, что он может быть связан с проектом, о котором OpenAI объявила в мае, заявив о новых мощных результатах, полученных с помощью техники под названием "наблюдение за процессом"

В проекте участвовал Илья Суцкевер, главный ученый и соучредитель OpenAI, который помог сместить Альтмана, но позже отказался от своих слов - по данным The Information, он руководил работой над Q*. Работа, проведенная в мае, была направлена на сокращение логических ошибок, допускаемых большими языковыми моделями (LLM). Контроль процесса, который включает в себя обучение модели ИИ разбиению на шаги, необходимые для решения проблемы, может повысить шансы алгоритма на получение правильного ответа. Проект показал, как это может помочь LLM, которые часто делают простые ошибки в элементарных математических вопросах, решать такие задачи более эффективно.

Эндрю Нг, профессор Стэнфордского университета, возглавлявший лаборатории ИИ в Google и Baidu и познакомивший многих людей с машинным обучением благодаря своим занятиям на Coursera, говорит, что улучшение больших языковых моделей - это следующий логический шаг к тому, чтобы сделать их более полезными. "LLM не так хороши в математике, но и люди тоже", - говорит Нг. "Однако если дать мне ручку и бумагу, то я гораздо лучше справлюсь с умножением, и я думаю, что на самом деле не так уж сложно доработать LLM с памятью, чтобы он мог пройти через алгоритм умножения."

Есть и другие подсказки о том, чем может быть Q*. Название может быть аллюзией на Q-обучение - форму обучения с подкреплением, при которой алгоритм учится решать проблему с помощью положительной или отрицательной обратной связи. Эта технология использовалась для создания игровых ботов и настройки ChatGPT на более полезную работу. Некоторые предполагают, что название также может быть связано с алгоритмом поиска A*, широко используемым для поиска программой оптимального пути к цели.

Информация бросает еще одну подсказку: "Прорыв Суцкевера позволил OpenAI преодолеть ограничения, связанные с получением достаточного количества высококачественных данных для обучения новых моделей", - говорится в статье. "В ходе исследования для обучения новых моделей использовались данные, созданные компьютером, а не реальные данные, например, текст или изображения, взятые из Интернета". По всей видимости, это отсылка к идее обучения алгоритмов на так называемых синтетических обучающих данных, которая появилась как способ обучения более мощных моделей ИИ.

Суббарао Камбхампати, профессор Университета штата Аризона, изучающий ограничения рассуждений LLM, считает, что Q* может включать использование огромных объемов синтетических данных в сочетании с обучением с подкреплением для обучения LLM конкретным задачам, таким как простая арифметика. Камбхампати отмечает, что нет никаких гарантий того, что этот подход будет обобщен до чего-то, что сможет понять, как решить любую возможную математическую задачу.

Для более подробных предположений о том, чем может быть Q*, прочтите этот пост ученого, занимающегося машинным обучением, который впечатляюще и логично собирает вместе контекст и подсказки. В двух словах можно сказать, что Q* может быть попыткой использовать обучение с подкреплением и некоторые другие методы для улучшения способности большой языковой модели решать задачи, рассуждая по шагам. Хотя это может сделать ChatGPT лучше в математических головоломках, неясно, будет ли это автоматически предполагать, что системы ИИ смогут ускользать от человеческого контроля.

То, что OpenAI попытается использовать обучение с подкреплением для улучшения LLM, кажется правдоподобным, поскольку многие ранние проекты компании, такие как боты, играющие в видеоигры, были сосредоточены на этой технике. Обучение с подкреплением также сыграло центральную роль в создании ChatGPT, поскольку с его помощью можно заставить LLM давать более связные ответы, попросив людей давать обратную связь в процессе общения с чатботом. В беседе с Демисом Хассабисом, генеральным директором Google DeepMind, в начале этого года он намекнул, что компания пытается объединить идеи обучения с подкреплением с достижениями в области больших языковых моделей.

Подводя итог имеющимся сведениям о Q*, вряд ли это звучит как повод для паники. Но все зависит от вашего личного значения P(doom) - вероятности, которую вы приписываете возможности того, что ИИ уничтожит человечество. Задолго до появления ChatGPT ученые и руководители OpenAI были настолько напуганы разработкой GPT-2, генератора текста 2019 года, который сейчас кажется смехотворно маленьким, что запретили публиковать его. Теперь компания предлагает бесплатный доступ к гораздо более мощным системам.

OpenAI отказалась комментировать Q*. Возможно, мы узнаем больше подробностей, когда компания решит, что пришло время поделиться результатами своих усилий по созданию ChatGPT, способного не только говорить, но и рассуждать.