Игры разума: как нейросети обретают независимость от человеческого опыта

Умение нейросети AlphaGo Zero выигрывать в го, не выбирая ходы из партий мастеров, демонстрирует новый уровень развития искусственного интеллекта

Разработчики из компании DeepMind опубликовали в Nature статью о новом алгоритме для программы AlphaGo, искусственного интеллекта, который играет в го — AlphaGo Zero. В отличие от предыдущих версий новая AlphaGo была ориентирована только на самообучение, в нее не закладывались выборки игр мастеров в го. Новая система одержала абсолютную победу над всеми своими искусственными предшественниками, а профессиональные игроки в го говорят, что, наблюдая за партиями AplhaGo Zero, они узнали новые сильные ходы.

Причем здесь экономика

В 1994 году Джон Нэш получил Нобелевскую премию по экономике за работу по исследованию некооперативных игр. Джон Нэш известен читателю по фильму «Игры разума», в котором не только рассказывается история его психической болезни, но и популярно излагаются основы теории игр. 1994 год близок к нам, однако, как это часто бывает с нобелевскими премиями, работа, за которую она была получена, выполнена полвека назад. В 1949 году Джон Нэш защитил диссертацию на тему некооперативных игр, а еще за пять лет до этого, в 1944 году, вышла книга, которая заложила математические основы теории игр — «Теория игр и экономическое поведение» Джона фон Неймана и Оскара Моргенштерна.

rbc.group

Джон фон Нейман помимо этой фундаментальной работы сделал вклад во много других областей, но самый актуальный в контексте сегодняшнего обсуждения — это то, что он разработал «архитектуру фон Неймана» — базовую архитектуру всех компьютеров, существующую и по сей день.

rbc.group

Теория игр, описанная Нэшем и Нейманом, рассматривает привычные нам игры (не на свежем воздухе, конечно) как взаимодействие участников в рамках некоторых формальных правил. Хорошим примером формализованной игры являются крестики-нолики. Есть два игрока, которые по очереди ставят крестик или нолик в свободное поле. Условие победы четко описано: три отметки в ряд. Игра интересна тем, что в ней есть способ верной победы, или доминирующая стратегия: побеждает всегда тот, кто ходит первым, если не совершит ошибок. Это значит, что компьютер может обыграть человека в эту игру всегда, при условии, что компьютер ходит первым. Если первым ходит человек, который не совершает ошибок, он тоже всегда обыграет компьютер.

Такие доминирующие стратегии можно придумать далеко не для всех игр. Например, всем известные шахматы не имеют доминирующей стратегии. Игрок должен противодействовать своему партнеру по игре, то есть должен учитывать его ходы. Все современные системы искусственного интеллекта, такие как AlphaGo Zero, так и делают.

Интеллектуальные пророчества

Предсказание развития игры — это умение предсказать ход соперника и придумать свой, а потом предсказать следующий ход соперника и придумать следующий свой, и так до конца игры. Как предсказывать оппонента, если он еще не сделал свой ход? В 1980-х годах эту проблему решали просто: предсказывали не следующий ход, а рассчитывали все возможные ходы из данной позиции. Задача обыграть противника в шахматы сводилась к тому, чтобы как можно эффективнее вычислить все возможные развития партии из текущей позиции и выбрать ход, который с наибольшей вероятностью ведет к победе.

В 1989 году компьютер Deep Thought выиграл чемпионат мира по шахматам среди компьютерных программ с достаточно большим отрывом по очкам. Чемпионат проводился практически по тем же правилам, что и человеческий, — с теми же ограничениями по времени и т.д. Тогда авторы решили сразиться в шахматы с человеком. В 1996 году поединок между машиной и человеком, чемпионом мира по шахматам Гарри Каспаровым, закончился убедительной победой наследника Deep Thought, компьютера Deep Blue. Этот компьютер работал на аппаратной базе корпорации IBM. Победа Deep Blue показала, что компьютеры достигли достаточной производительности, чтобы «думать» быстрее человека, по крайней мере при игре в шахматы. Хотя процесс расчета исходов партии, применяемый в Deep Thought/Blue, был мало похож на мыслительный процесс человека. Профессиональный шахматист не просчитывает ходы явно — он их оценивает и «видит» самые перспективные из них.

87 из 100

Игра го гораздо сложнее шахмат: количество допустимых ходов в каждой позиции для шахмат не больше 64 (по количеству клеток на доске), а в го — порядка 250. Рассчитать партии го на много ходов вперед — очень время- и ресурсозатратная операция. Поэтому команда AlphaGo решила отказаться от расчета всех последующих шагов, а просчитывать фиксированную глубину, скажем, в три шага, а дальше делать оценку позиции в целом. Для этой оценки было решено использовать записи игр мастеров го. Такой подход оказался продуктивен — AlphaGo победила сначала Ке Цзе, европейского чемпиона го, а потом и Ли Седоля, чемпиона мира из Кореи.

Deep Blue и предыдущие варианты AlphaGo требовали достаточно больших вычислительных ресурсов — большую комнату с серверами. Это несравнимо по физическим размерам и потреблению энергии с человеческим мозгом, который гораздо более эффективен.

И вот на сцену выходит AlphaGo Zero. Эта система училась и работает всего лишь на одном сервере, пусть и очень мощном. Пока это все еще не человеческий мозг, но уже гораздо ближе. Авторы отказались от обучения на играх мастеров, теперь компьютер играет только сам с собой и не получает знания, которые люди скопили за миллионы сыгранных партий. Из игры с собой компьютер смог выучить все важные концепции всего за несколько дней (общее время обучения Zero — чуть больше месяца). AlphaGo Zero бьет все предыдущие версии AlphaGo и человека в 87 случаях из ста.

AlphaGo Zero — мощный прыжок для компьютеров, играющих в го. Компьютеры теперь научились играть в игры, как люди, и даже лучше. Однако успехи AlphaGo Zero не стоит экстраполировать на другие области — до сих пор мы говорили про игры с формальными правилами и полной информацией, когда оба игрока видят поле целиком. Но в задачах реального мира, как правило, не выполняется ни одно из этих условий.

Хотя стоит отметить, что действовать в условиях неполной информации нейронные сети уже учатся: например, программа Libratus смогла победить в игре один-на-один профессиональных игроков в покер. Принципиальное отличие покера от шахмат или го в том, что игрок не обладает полной информацией: он не знает, какие карты на руках у соперника. Победа Libratus прошла мимо внимания широкой публики, но это весьма важный шаг на пути развития искусственного интеллекта. Пока все еще в формализованных играх, но не за горами те времена, когда он начнет помогать человечеству и в реальных делах.

Сейчас нейронные сети помогают человечеству в создании беспилотных автомобилей, систем безопасности, анализа поведения оборудования, начинают применяться в медицине — для анализа рентгеновских снимков, а также в фундаментальной науке — например, в исследованиях черных дыр. Однако области применения нейросетей ограничиваются тем, что не все задачи получается сформулировать понятным для компьютера образом. Поэтому так важно, что компьютеры становятся мощнее, алгоритмы «умнее» и машины все больше способны к самообучению. Это позволит уже в ближайшем будущем расширить области применения искусственного интеллекта.

Об авторе