Перейти к основному контенту
Мнение ,  
0 
Валентин Малых

Игры разума: как нейросети обретают независимость от человеческого опыта

Умение нейросети AlphaGo Zero выигрывать в го, не выбирая ходы из партий мастеров, демонстрирует новый уровень развития искусственного интеллекта

Разработчики из компании DeepMind опубликовали в Nature статью о новом алгоритме для программы AlphaGo, искусственного интеллекта, который играет в го — AlphaGo Zero. В отличие от предыдущих версий новая AlphaGo была ориентирована только на самообучение, в нее не закладывались выборки игр мастеров в го. Новая система одержала абсолютную победу над всеми своими искусственными предшественниками, а профессиональные игроки в го говорят, что, наблюдая за партиями AplhaGo Zero, они узнали новые сильные ходы.

Причем здесь экономика

В 1994 году Джон Нэш получил Нобелевскую премию по экономике за работу по исследованию некооперативных игр. Джон Нэш известен читателю по фильму «Игры разума», в котором не только рассказывается история его психической болезни, но и популярно излагаются основы теории игр. 1994 год близок к нам, однако, как это часто бывает с нобелевскими премиями, работа, за которую она была получена, выполнена полвека назад. В 1949 году Джон Нэш защитил диссертацию на тему некооперативных игр, а еще за пять лет до этого, в 1944 году, вышла книга, которая заложила математические основы теории игр — «Теория игр и экономическое поведение» Джона фон Неймана и Оскара Моргенштерна.

Джон фон Нейман помимо этой фундаментальной работы сделал вклад во много других областей, но самый актуальный в контексте сегодняшнего обсуждения — это то, что он разработал «архитектуру фон Неймана» — базовую архитектуру всех компьютеров, существующую и по сей день.

Теория игр, описанная Нэшем и Нейманом, рассматривает привычные нам игры (не на свежем воздухе, конечно) как взаимодействие участников в рамках некоторых формальных правил. Хорошим примером формализованной игры являются крестики-нолики. Есть два игрока, которые по очереди ставят крестик или нолик в свободное поле. Условие победы четко описано: три отметки в ряд. Игра интересна тем, что в ней есть способ верной победы, или доминирующая стратегия: побеждает всегда тот, кто ходит первым, если не совершит ошибок. Это значит, что компьютер может обыграть человека в эту игру всегда, при условии, что компьютер ходит первым. Если первым ходит человек, который не совершает ошибок, он тоже всегда обыграет компьютер.

Такие доминирующие стратегии можно придумать далеко не для всех игр. Например, всем известные шахматы не имеют доминирующей стратегии. Игрок должен противодействовать своему партнеру по игре, то есть должен учитывать его ходы. Все современные системы искусственного интеллекта, такие как AlphaGo Zero, так и делают.

Интеллектуальные пророчества

Предсказание развития игры — это умение предсказать ход соперника и придумать свой, а потом предсказать следующий ход соперника и придумать следующий свой, и так до конца игры. Как предсказывать оппонента, если он еще не сделал свой ход? В 1980-х годах эту проблему решали просто: предсказывали не следующий ход, а рассчитывали все возможные ходы из данной позиции. Задача обыграть противника в шахматы сводилась к тому, чтобы как можно эффективнее вычислить все возможные развития партии из текущей позиции и выбрать ход, который с наибольшей вероятностью ведет к победе.

В 1989 году компьютер Deep Thought выиграл чемпионат мира по шахматам среди компьютерных программ с достаточно большим отрывом по очкам. Чемпионат проводился практически по тем же правилам, что и человеческий, — с теми же ограничениями по времени и т.д. Тогда авторы решили сразиться в шахматы с человеком. В 1996 году поединок между машиной и человеком, чемпионом мира по шахматам Гарри Каспаровым, закончился убедительной победой наследника Deep Thought, компьютера Deep Blue. Этот компьютер работал на аппаратной базе корпорации IBM. Победа Deep Blue показала, что компьютеры достигли достаточной производительности, чтобы «думать» быстрее человека, по крайней мере при игре в шахматы. Хотя процесс расчета исходов партии, применяемый в Deep Thought/Blue, был мало похож на мыслительный процесс человека. Профессиональный шахматист не просчитывает ходы явно — он их оценивает и «видит» самые перспективные из них.

87 из 100

Игра го гораздо сложнее шахмат: количество допустимых ходов в каждой позиции для шахмат не больше 64 (по количеству клеток на доске), а в го — порядка 250. Рассчитать партии го на много ходов вперед — очень время- и ресурсозатратная операция. Поэтому команда AlphaGo решила отказаться от расчета всех последующих шагов, а просчитывать фиксированную глубину, скажем, в три шага, а дальше делать оценку позиции в целом. Для этой оценки было решено использовать записи игр мастеров го. Такой подход оказался продуктивен — AlphaGo победила сначала Ке Цзе, европейского чемпиона го, а потом и Ли Седоля, чемпиона мира из Кореи.

Deep Blue и предыдущие варианты AlphaGo требовали достаточно больших вычислительных ресурсов — большую комнату с серверами. Это несравнимо по физическим размерам и потреблению энергии с человеческим мозгом, который гораздо более эффективен.

И вот на сцену выходит AlphaGo Zero. Эта система училась и работает всего лишь на одном сервере, пусть и очень мощном. Пока это все еще не человеческий мозг, но уже гораздо ближе. Авторы отказались от обучения на играх мастеров, теперь компьютер играет только сам с собой и не получает знания, которые люди скопили за миллионы сыгранных партий. Из игры с собой компьютер смог выучить все важные концепции всего за несколько дней (общее время обучения Zero — чуть больше месяца). AlphaGo Zero бьет все предыдущие версии AlphaGo и человека в 87 случаях из ста.

AlphaGo Zero — мощный прыжок для компьютеров, играющих в го. Компьютеры теперь научились играть в игры, как люди, и даже лучше. Однако успехи AlphaGo Zero не стоит экстраполировать на другие области — до сих пор мы говорили про игры с формальными правилами и полной информацией, когда оба игрока видят поле целиком. Но в задачах реального мира, как правило, не выполняется ни одно из этих условий.

Хотя стоит отметить, что действовать в условиях неполной информации нейронные сети уже учатся: например, программа Libratus смогла победить в игре один-на-один профессиональных игроков в покер. Принципиальное отличие покера от шахмат или го в том, что игрок не обладает полной информацией: он не знает, какие карты на руках у соперника. Победа Libratus прошла мимо внимания широкой публики, но это весьма важный шаг на пути развития искусственного интеллекта. Пока все еще в формализованных играх, но не за горами те времена, когда он начнет помогать человечеству и в реальных делах.

Сейчас нейронные сети помогают человечеству в создании беспилотных автомобилей, систем безопасности, анализа поведения оборудования, начинают применяться в медицине — для анализа рентгеновских снимков, а также в фундаментальной науке — например, в исследованиях черных дыр. Однако области применения нейросетей ограничиваются тем, что не все задачи получается сформулировать понятным для компьютера образом. Поэтому так важно, что компьютеры становятся мощнее, алгоритмы «умнее» и машины все больше способны к самообучению. Это позволит уже в ближайшем будущем расширить области применения искусственного интеллекта.

Об авторе
Валентин Малых Валентин Малых исследователь Лаборатории нейронных систем и глубокого обучения МФТИ
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.
Теги
Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.

  

Лента новостей
Курс евро на 26 апреля
EUR ЦБ: 98,71 (-0,2)
Инвестиции, 16:51
Курс доллара на 26 апреля
USD ЦБ: 92,13 (-0,37)
Инвестиции, 16:51
Россия решила выслать двух латвийских дипломатов Политика, 18:06
Гол Роналдо принес клубу Карпина победу над «Уралом» Спорт, 18:00
«АвтоВАЗ» предупредил о скором росте цен Бизнес, 18:00
Путин пообещал «навести порядок» в Донбассе Политика, 17:59
Путин заявил, что «народный ВПК» работает вовсю Политика, 17:47
МЧС назвало причину пожара на востоке Москвы Общество, 17:44
Россия призовет заключить договор о запрете гонки вооружений в космосе Политика, 17:43
Онлайн-курс Digiital MBA от РБК
Объединили экспертизу профессоров MBA из Гарварда, MIT, INSEAD и опыт передовых ИТ-компаний
Оставить заявку
В Белоруссии пресекли более 40 каналов переброски оружия с Украины Политика, 17:37
Следствие попросило арестовать экс-зампреда правительства Подмосковья Политика, 17:31
Министр труда ответил на заявления о конце дешевого труда в России Экономика, 17:29
Аналитики «Сбера»: дивиденды российских компаний весной-летом могут стать рекордными Инвестиции, 17:28
Путин призвал не допускать беспредела с изъятием опекой детей из семьи Общество, 17:27
Военных задержали за убийство четырех человек в зоне военной операции Политика, 17:25
Россиянка выбила экс-первую ракетку мира на старте турнира в Мадриде Спорт, 17:18