Google создала усовершенствованный ИИ, способный победить своего действующего чемпиона по шахматам AlphaZero.

Когда в начале 2020 года Covid-19 отправил людей домой, компьютерный ученый Том Захави заново открыл для себя шахматы. Он играл в детстве, а недавно прочитал книгу Гарри Каспарова "Глубокое мышление" - мемуары гроссмейстера о матчах 1997 года против шахматного компьютера Deep Blue компании IBM. Он смотрел шахматные видео на YouTube и "Ферзевый гамбит" на Netflix.

Когда "Ковид-19" отправил людей домой в начале 2020 года, ученый-компьютерщик Том Захави заново открыл для себя шахматы. Он играл в детстве, а недавно прочитал книгу Гарри Каспарова "Глубокое мышление", мемуары гроссмейстера о его поединках с шахматным компьютером Deep Blue, созданным IBM в 1997 году. Он смотрел шахматные видео на YouTube и "Ферзевый гамбит" на Netflix.

Несмотря на вновь возникший интерес, Захави не искал способов улучшить свою игру. "Я не великий игрок", - сказал он. "Я лучше разбираюсь в шахматных головоломках" - расстановке фигур, часто надуманной и маловероятной в реальной игре, которая ставит перед игроком задачу найти творческий подход к получению преимущества.

Головоломки могут помочь игрокам отточить свое мастерство, но в последнее время они помогают выявить скрытые ограничения шахматных программ. Одна из самых известных головоломок, придуманная математиком сэром Роджером Пенроузом в 2017 году, выставляет на доску сильные черные фигуры (такие как ферзь и ладьи), но в неудобных позициях. Опытный человек, играющий белыми, мог бы легко свести партию к ничьей, но мощные компьютерные шахматные программы сказали бы, что у черных явное преимущество. По словам Захави, эта разница говорит о том, что, хотя компьютеры и могут победить лучших в мире игроков, они пока не могут распознать и решить все сложные задачи. С тех пор Пенроуз и другие ученые разработали обширные коллекции головоломок, которые компьютеры решают с большим трудом.

Шахматы давно служат ориентиром для проверки новых идей в области искусственного интеллекта, и головоломки Пенроуза заинтересовали Захави. "Я пытался понять, что делает эти позиции такими сложными для компьютеров, когда, по крайней мере, некоторые из них мы можем решить как люди", - сказал он. "Я был совершенно очарован". Вскоре это переросло в профессиональный интерес: В качестве научного сотрудника Google DeepMind Захави изучает творческие подходы к решению проблем. Цель состоит в том, чтобы создать системы ИИ со спектром возможных моделей поведения помимо выполнения одной задачи.

Традиционная шахматная программа ИИ, обученная побеждать, может не справиться с головоломкой Пенроуза, но Захави подозревает, что программа, состоящая из множества разнообразных систем, работающих вместе как группа, может продвинуться вперед. Поэтому он и его коллеги разработали способ объединить несколько (до 10) систем ИИ, принимающих решения, каждая из которых оптимизирована и обучена различным стратегиям, начиная с AlphaZero, мощной шахматной программы DeepMind. Новая система, как они сообщили в августе, играла лучше, чем AlphaZero в одиночку, и проявила больше мастерства и креативности при решении головоломок Пенроуза. В некотором смысле эти способности появились благодаря самосотрудничеству: Если один подход упирался в стену, программа просто обращалась к другому.

По словам Эллисон Лиемхетчарат, компьютерщика из DoorDash, которая работала с многоагентными подходами к решению проблем в робототехнике, такой подход в принципе имеет смысл. "При наличии популяции агентов существует большая вероятность того, что головоломки находятся в той области, в которой обучался хотя бы один из агентов".

Эта работа позволяет предположить, что команды различных систем ИИ могут эффективно решать сложные задачи далеко за пределами игровой доски. "Это отличный пример того, что поиск более чем одного способа решения проблемы - например, победы в шахматной партии - дает массу преимуществ", - сказал Антуан Кюлли, исследователь ИИ из Имперского колледжа Лондона, не участвовавший в проекте DeepMind. Он сравнил его с искусственной версией человеческих мозговых штурмов. "Этот мыслительный процесс приводит к творческим и эффективным решениям, которые можно было бы упустить, не выполнив это упражнение."

Погоня за неудачами

До прихода в DeepMind Захави интересовался глубоким обучением с подкреплением - областью искусственного интеллекта, в которой система использует нейронные сети для обучения некоторой задаче методом проб и ошибок. На нем основаны самые мощные шахматные программы (и он используется в других приложениях ИИ, таких как самоуправляемые автомобили). Система начинает с окружающей среды. В шахматах, например, окружение включает в себя игровую доску и возможные ходы. Если задача состоит в управлении автомобилем, среда включает в себя все, что окружает машину. Затем система принимает решения, выполняет действия и оценивает, насколько близко она подошла к цели. По мере приближения к цели она накапливает вознаграждения, а по мере накопления вознаграждений система улучшает свою производительность. Глубокая" часть этого подхода описывает нейронные сети, используемые для анализа и оценки поведения.

На основе обучения с подкреплением AlphaZero научилась становиться шахматным мастером. DeepMind сообщила, что за первые девять часов обучения в декабре 2017 года программа сыграла 44 миллиона партий против самой себя. Сначала ее ходы определялись случайным образом, но со временем она научилась выбирать ходы, которые с большей вероятностью приведут к шаху. Всего за несколько часов тренировок AlphaZero смогла победить любого шахматиста-человека.

Но каким бы успешным ни было обучение с подкреплением, оно не всегда приводит к стратегиям, отражающим общее понимание игры. За последние полдесятилетия Захави и другие исследователи заметили, что в системах, обученных методом проб и ошибок, участились случаи возникновения особых сбоев. Например, система, играющая в видеоигры, может найти лазейку и придумать, как обмануть или пропустить уровень, или же она может с тем же успехом застрять в повторяющемся цикле. Головоломки в стиле Пенроуза также предполагали наличие у AlphaZero своего рода слепого пятна, или глюка, - он не мог понять, как подойти к решению проблемы, с которой никогда раньше не сталкивался.

Но, возможно, не все глюки являются просто ошибками. Захави подозревает, что слепые зоны AlphaZero на самом деле могут быть чем-то другим, замаскированным - решениями и поведением, связанными с внутренним вознаграждением системы. По его словам, системы глубокого обучения с подкреплением не умеют терпеть неудачи - и даже не умеют их распознавать. Способность терпеть неудачи давно связана с творческим подходом к решению проблем. "Творчество обладает человеческими качествами", - пишет Каспаров в книге "Глубокое мышление". "Оно принимает понятие неудачи".

АИ-системы, как правило, этого не делают. И если система не признает, что не справилась с поставленной задачей, то она может и не попробовать что-то другое. Вместо этого она просто продолжит делать то, что уже сделала. По словам Захави, именно это, скорее всего, приводит к тупиковым ситуациям в видеоиграх - или к тому, что вы застреваете на некоторых задачах Пенроуза. По его словам, система преследовала "странные виды внутренних вознаграждений", которые она выработала в процессе обучения. Вещи, которые со стороны выглядели как ошибки, скорее всего, были следствием разработки определенных, но в конечном итоге неудачных стратегий.

Система рассматривала эти странные вознаграждения как шаги к большой цели, которой она на самом деле не могла достичь, и не знала, что нужно попробовать что-то новое. "Я пытался понять их смысл", - говорит Захави.

Лучшая игра

Часть причины, по которой эти сбои могут оказаться столь значимыми и столь полезными, кроется в том, что исследователи называют проблемой обобщения. Хотя системы обучения с подкреплением могут разработать эффективную стратегию, связывающую определенную ситуацию с конкретным действием, которую исследователи называют "политикой", они не могут применить ее к различным проблемам. "Обычно при обучении с подкреплением, почти независимо от метода, происходит то, что вы получаете политику, которая решает конкретный случай проблемы, на которой вы обучались, но не обобщает ее", - говорит Джулиан Тогелиус, компьютерный ученый из Нью-Йоркского университета и директор по исследованиям в modl.ai.

Я пытался понять, что делает эти [шахматные] позиции такими сложными для компьютеров, когда по крайней мере некоторые из них мы можем решить как люди.

Захави увидел, что головоломки Пенроуза требуют именно такого рода обобщения. Возможно, AlphaZero не могла решить большинство головоломок, потому что была так сосредоточена на том, чтобы выигрывать все партии, от начала до конца. Но такой подход создавал "слепые зоны", которые выявлялись благодаря маловероятному расположению фигур в головоломках Пенроуза. Возможно, рассуждал он, программа сможет научиться решать головоломки, если у нее будет достаточно творческого пространства для мозгового штурма и доступа к различным методам обучения.

Так что он и его коллеги сначала собрали набор из 53 головоломок Пенроуза и 15 дополнительных головоломок-задач. AlphaZero самостоятельно решил менее 4 процентов головоломок Пенроуза и менее 12 процентов остальных. Захави не был удивлен: Многие из этих головоломок были разработаны шахматными мастерами, чтобы намеренно запутать компьютеры.

В качестве эксперимента исследователи попробовали научить AlphaZero играть против самого себя, используя в качестве стартовой позиции расположение головоломок Пенроуза, а не полную доску для обычных игр. Его производительность значительно возросла: Он решил 96 процентов головоломок Пенроуза и 76 процентов задач. В общем, когда AlphaZero тренировался на конкретной головоломке, он мог решить ее, так же как и выиграть, когда тренировался на полной игре. Возможно, подумал Захави, если шахматная программа каким-то образом получит доступ ко всем этим различным версиям AlphaZero, обученным на разных позициях, то это разнообразие может дать толчок к продуктивному решению новых задач. Возможно, она сможет обобщать, другими словами, решать не только головоломки Пенроуза, но и любые более широкие шахматные задачи.

Группа решила выяснить это. Они создали новую, диверсифицированную версию AlphaZero, включающую несколько систем искусственного интеллекта, которые обучались независимо друг от друга и на различных ситуациях. По словам Захави, алгоритм, управляющий всей системой, действует как своего рода виртуальная сваха: он призван определить, какой агент имеет наибольшие шансы на успех, когда приходит время делать ход. Он и его коллеги также ввели "бонус разнообразия" - вознаграждение для системы, когда она выбирает стратегию из большого числа вариантов.

Когда новая система была предоставлена самой себе для игры, команда наблюдала большое разнообразие. Разносторонний ИИ-игрок экспериментировал с новыми эффективными дебютами и принимал новые, но обоснованные решения относительно конкретных стратегий, например, когда и где ставить замок. В большинстве матчей он побеждал оригинальный AlphaZero. Команда также обнаружила, что диверсифицированная версия могла решить в два раза больше головоломок, чем оригинал, и смогла решить более половины всего каталога головоломок Пенроуза.

"Идея заключается в том, что вместо того, чтобы найти одно решение или одну единственную политику, которая победит любого игрока, здесь [используется] идея творческого разнообразия", - сказал Калли.

По словам Захави, имея доступ к большему количеству различных игр, диверсифицированная AlphaZero получила больше возможностей для решения сложных ситуаций, когда они возникали. "Если вы можете контролировать тип игр, которые он видит, вы, по сути, контролируете то, как он будет обобщать", - сказал он. Эти странные внутренние вознаграждения (и связанные с ними ходы) могут стать сильными сторонами разнообразного поведения. Тогда система сможет научиться оценивать и ценить разные подходы и видеть, когда они наиболее успешны". "Мы обнаружили, что эта группа агентов действительно может прийти к соглашению по этим позициям."

И, что очень важно, последствия выходят за рамки шахмат.

Творчество в реальной жизни

Калли говорит, что диверсифицированный подход может помочь любой системе ИИ, а не только тем, которые основаны на обучении с подкреплением. Он уже давно использует разнообразие для обучения физических систем, в том числе шестиногого робота, которому позволили изучить различные виды движений, а затем намеренно "ранили" его, позволив продолжить движение, используя некоторые из техник, которые он разработал ранее. "Мы просто пытались найти решения, которые отличались бы от всех предыдущих решений, найденных нами до сих пор". В последнее время он также сотрудничает с исследователями, чтобы использовать разнообразие для выявления новых перспективных кандидатов на лекарства и разработки эффективных стратегий торговли акциями.

"Цель состоит в том, чтобы создать большую коллекцию потенциально тысяч различных решений, где каждое решение очень отличается от другого, - говорит Калли. Таким образом, подобно тому, как шахматист учится делать диверсификацию, для каждого типа задач общая система сможет выбрать наилучшее возможное решение". По его словам, система ИИ Захави наглядно демонстрирует, как "поиск разнообразных стратегий помогает мыслить нестандартно и находить решения"

Захави подозревает, что для того, чтобы системы ИИ могли мыслить творчески, исследователям нужно просто заставить их рассматривать больше вариантов. Эта гипотеза наводит на мысль о любопытной связи между людьми и машинами: Возможно, интеллект - это всего лишь вопрос вычислительной мощности. Возможно, для системы искусственного интеллекта креативность сводится к способности рассматривать и выбирать из достаточно большого количества вариантов. По мере того как система получает вознаграждение за выбор различных оптимальных стратегий, этот вид творческого решения проблем усиливается и укрепляется. В конечном итоге, теоретически, она может имитировать любую стратегию решения проблем, признанную творческой у человека. Творчество станет вычислительной проблемой.

Лиеметчарат отметил, что диверсифицированная система ИИ вряд ли полностью решит более широкую проблему обобщения в машинном обучении. Но это шаг в правильном направлении. "Это смягчает один из недостатков", - сказала она.

В более практическом плане результаты Захави перекликаются с недавними работами, которые показывают, как сотрудничество может привести к улучшению производительности при выполнении сложных задач людьми. Например, большинство хитов в списке Billboard 100 были написаны командами авторов песен, а не отдельными людьми. И здесь еще есть место для совершенствования. Разнообразный подход в настоящее время требует больших вычислительных затрат, поскольку он должен учитывать гораздо больше возможностей, чем обычная система. Захави также не уверен, что даже диверсифицированная AlphaZero охватывает весь спектр возможностей.

"Я все еще думаю, что есть место для поиска различных решений", - сказал он. "Мне не ясно, что, учитывая все данные в мире, на каждый вопрос есть [только] один ответ."

Оригинал статьи перепечатан с разрешения журнала Quanta, независимого издания Фонда Саймонса, чья миссия заключается в улучшении понимания общественностью науки путем освещения научных разработок и тенденций в области математики, физических наук и наук о жизни.