Оригинальная версия этой статьи появилась в журнале Quanta.

Два года назад в рамках проекта под названием Beyond the Imitation Game benchmark, или BIG-bench, 450 исследователей составили список из 204 задач, предназначенных для проверки возможностей больших языковых моделей, на которых работают такие чатботы, как ChatGPT. В большинстве задач производительность предсказуемо и плавно повышалась по мере увеличения масштаба моделей - чем больше была модель, тем лучше она работала. Но в других задачах скачок в способностях не был плавным. Некоторое время производительность оставалась близкой к нулю, а затем она резко возрастала. Авторы назвали это "прорывным" поведением; другие исследователи сравнили его с фазовым переходом в физике, например, когда жидкая вода замерзает в лед. В работе, опубликованной в августе 2022 года, исследователи отметили, что такое поведение не только удивительно, но и непредсказуемо, и что оно должно стать основой для развивающихся дискуссий о безопасности, потенциале и рисках ИИ. Они назвали эти способности "эмерджентными" - словом, описывающим коллективное поведение, которое появляется только после того, как система достигает высокого уровня сложности.

Но все может быть не так просто. В новой работе трио исследователей из Стэнфордского университета утверждается, что внезапное появление этих способностей - всего лишь следствие того, как исследователи измеряют производительность LLM. Способности, по их мнению, не являются ни непредсказуемыми, ни внезапными. "Переход гораздо более предсказуем, чем люди ему приписывают", - говорит Санми Койехо, компьютерный ученый из Стэнфорда и старший автор статьи. "Сильные заявления о возникновении имеют столько же отношения к выбранному нами способу измерения, сколько и к тому, что делают модели."

Мы только сейчас видим и изучаем это поведение из-за того, насколько масштабными стали эти модели. Большие языковые модели обучаются путем анализа огромных наборов данных текста - слов из онлайн-источников, включая книги, веб-поиск и Википедию, - и поиска связей между словами, которые часто встречаются вместе. Размер модели измеряется в параметрах, что примерно аналогично всем способам соединения слов. Чем больше параметров, тем больше связей может найти LLM. GPT-2 имел 1,5 миллиарда параметров, а GPT-3.5, LLM, на котором работает ChatGPT, использует 350 миллиардов. GPT-4, дебютировавший в марте 2023 года и лежащий в основе Microsoft Copilot, по сообщениям, использует 1,75 триллиона.

Такой быстрый рост привел к поразительному всплеску производительности и эффективности, и никто не оспаривает, что достаточно большие LLM могут выполнять задачи, которые не под силу более мелким моделям, включая те, для которых они не были обучены. Трио из Стэнфорда, называющее появление "миражом", признает, что LLM становятся более эффективными по мере расширения масштаба; на самом деле, дополнительная сложность больших моделей должна позволить им лучше справляться с более сложными и разнообразными задачами. Но они утверждают, что то, выглядит ли это улучшение гладким и предсказуемым или неровным и резким, обусловлено выбором метрики - или даже недостатком тестовых примеров, - а не внутренним устройством модели.

В качестве примера можно привести сложение трех цифр. В исследовании BIG-bench 2022 года ученые сообщили, что при меньшем количестве параметров и GPT-3, и другая LLM под названием LAMDA не смогли точно решить задачи на сложение. Однако когда GPT-3 обучался с использованием 13 миллиардов параметров, его способности изменились, словно по щелчку выключателя. Внезапно он смог складывать - и LAMDA тоже, при 68 миллиардах параметров. Это говорит о том, что способность к сложению появляется при определенном пороге.

Но стэнфордские исследователи отмечают, что LLM оценивались только по точности: Либо они могли сделать это идеально, либо нет. Таким образом, даже если LLM правильно предсказывал большинство цифр, он терпел неудачу. Это казалось неправильным. Если вы вычисляете 100 плюс 278, то 376 кажется гораздо более точным ответом, чем, скажем, -9,34.

Так что вместо этого Койехо и его коллеги протестировали ту же задачу, используя метрику, которая дает частичную оценку. Мы можем спросить: "Насколько хорошо он предсказывает первую цифру? Затем вторую? Потом третью?" - говорит он.

Койехо приписывает идею новой работы своему аспиранту Райлану Шефферу, который, по его словам, заметил, что производительность LLM, похоже, меняется в зависимости от того, как измеряются его способности. Вместе с Брандо Мирандой, другим аспирантом Стэнфорда, они выбрали новые метрики, которые показали, что при увеличении параметров LLM предсказывали все более правильную последовательность цифр в задачах на сложение. Это говорит о том, что способность к сложению не возникает - то есть не происходит внезапного, непредсказуемого скачка, - а развивается постепенно и предсказуемо. Но другие ученые отмечают, что эта работа не полностью опровергает идею возникновения. Например, в работе трио не объясняется, как предсказать, когда метрики или какие метрики покажут резкое улучшение в LLM, говорит Тяньши Ли, компьютерный ученый из Северо-Восточного университета. "Так что в этом смысле эти способности все еще непредсказуемы", - говорит она. Другие, например Джейсон Вэй, ученый-компьютерщик из OpenAI, который составил список возникающих способностей и был одним из авторов статьи BIG-bench, утверждают, что ранние сообщения о возникновении способностей были обоснованными, поскольку для таких способностей, как арифметика, правильный ответ действительно имеет значение.

"Здесь определенно предстоит интересный разговор, - говорит Алекс Тамкин, ученый-исследователь из ИИ-стартапа Anthropic. По его словам, в новой работе ловко разбиваются многоэтапные задачи, чтобы распознать вклад отдельных компонентов. "Но это еще не вся история. Мы не можем сказать, что все эти скачки - мираж. Я все еще думаю, что литература показывает, что даже если у вас есть одношаговые предсказания или вы используете непрерывные метрики, у вас все равно есть разрывы, и по мере увеличения размера вашей модели вы все еще можете видеть, что она становится лучше скачкообразно."

И даже если появление в сегодняшних LLM можно объяснить различными инструментами измерения, скорее всего, это не будет так для завтрашних больших и более сложных LLM. "Когда мы будем развивать LLM до следующего уровня, они неизбежно будут заимствовать знания из других задач и других моделей", - говорит Ся "Бен" Ху, компьютерный ученый из Университета Райса.

Это развивающееся рассмотрение эмерджентности - не просто абстрактный вопрос для исследователей. Для Тамкина это напрямую связано с текущими усилиями по предсказанию поведения LLM. "Эти технологии настолько широки и применимы", - сказал он. "Я надеюсь, что сообщество использует этот вопрос как отправную точку, чтобы подчеркнуть, насколько важно создать науку предсказания для этих вещей. Как нам не удивляться следующему поколению моделей?"