В Anthropic говорят, что новая гибридная модель, получившая название Claude 3.7, облегчит пользователям и разработчикам решение задач, требующих сочетания инстинктивного вывода и пошагового размышления. "Пользователь имеет большой контроль над поведением - как долго он думает, и может торговать рассуждениями и интеллектом с временем и бюджетом", - говорит Майкл Герстенхабер, руководитель отдела продуктов платформы ИИ в Anthropic.

В Claude 3.7 также есть новая "панель для записей", которая показывает процесс рассуждений модели. Подобная функция оказалась популярной в китайской модели ИИ DeepSeek. Она может помочь пользователю понять, как модель работает над проблемой, чтобы изменить или уточнить подсказки.

Дианна Пенн, руководитель отдела исследований в Anthropic, говорит, что "блокнот" становится еще более полезным в сочетании с возможностью повышать и понижать уровень "рассуждений" модели. Если, например, модель не может правильно разложить проблему на составляющие, пользователь может попросить ее потратить на это больше времени.

Компании, занимающиеся разработкой искусственного интеллекта, все больше внимания уделяют тому, чтобы заставить модели "рассуждать" над проблемами, как способу увеличить их возможности и расширить их полезность. OpenAI, компания, которая положила начало нынешнему буму ИИ с ChatGPT, первой предложила рассуждающую модель ИИ под названием o1 в сентябре 2024 года. С тех пор OpenAI представила более мощную версию под названием o3, а конкурирующая компания Google выпустила аналогичное предложение для своей модели Gemini под названием Flash Thinking. В обоих случаях пользователям приходится переключаться между моделями, чтобы получить доступ к способностям рассуждения - ключевое отличие от Claude 3.7.

Разница между обычной моделью и рассуждающей похожа на два типа мышления, описанных лауреатом Нобелевской премии экономистом Майклом Канеманом в книге 2011 года "Мышление быстрое и медленное": быстрое и инстинктивное мышление System-1 и более медленное, более обдуманное мышление System-2.

Такая модель, благодаря которой стал возможен ChatGPT, известна как большая языковая модель или LLM, она мгновенно выдает ответы на подсказки, запрашивая большую нейронную сеть. Эти ответы могут быть поразительно умными и последовательными, но могут не отвечать на вопросы, требующие пошаговых рассуждений, включая простую арифметику.

Модель LLM можно заставить имитировать обдуманные рассуждения, если дать ей указание разработать план, которому она должна затем следовать. Однако этот трюк не всегда надежен, и модели обычно с трудом решают задачи, требующие тщательного планирования. OpenAI, Google, а теперь и Anthropic используют метод машинного обучения, известный как обучение с подкреплением, чтобы заставить свои новейшие модели научиться генерировать рассуждения, указывающие на правильные ответы. Это требует сбора дополнительных обучающих данных от людей о решении конкретных задач.

Пенн говорит, что режим рассуждений Клода получил дополнительные данные о бизнес-приложениях, включая написание и исправление кода, использование компьютеров и ответы на сложные юридические вопросы. "То, что мы улучшили, - это... технические предметы или предметы, требующие длительных рассуждений", - говорит Пенн. "Наши клиенты проявляют большой интерес к внедрению наших моделей в реальные рабочие нагрузки."

Anthropic утверждает, что Claude 3.7 особенно хорош в решении задач кодирования, требующих пошаговых рассуждений, и опережает OpenAI's o1 в некоторых бенчмарках, таких как SWE-bench. Сегодня компания выпускает новый инструмент под названием Claude Code, специально разработанный для такого рода кодирования с помощью ИИ.

"Модель уже хорошо справляется с кодированием, - говорит Пенн. Но "дополнительное мышление было бы полезно для случаев, которые могут потребовать очень сложного планирования - например, если вы рассматриваете чрезвычайно большую кодовую базу для компании"

.