Лента новостей
Надежность или доходность: выбираем что-то одно или есть золотая середина 11:57, РБК и Сбербанк Лионель Месси выбыл на три недели из-за перелома руки 11:57, Спорт В Совфеде назвали слова Трампа о выходе США из ДРСМД шантажом 11:49, Политика Главный инженер признал вину по делу о взрыве на заводе в Гатчине 11:21, Общество В Кемеровской области отец застрелил двух сыновей и покончил с собой 11:16, Общество В Австрии продали Cadillac Элвиса Пресли ниже ожидаемой стоимости 11:02, Бизнес Как будет выглядеть и что будет уметь умный дом через десять лет 10:55, РБК и Schneider Electric МИД предупредил США о готовности России ответить на разрыв договора РСМД 10:38, Политика Умер один из режиссеров сериала «Клан Сопрано» 10:33, Общество Власти Крыма не исключили создание мемориала в колледже в Керчи 10:24, Общество Чем определяется ценность мяса и его стоимость 10:22, РБК и Мираторг Белый дом вслед за ДРСМД задумался о разрыве договора Обамы и Медведева 10:07, Политика СК начал проверку по факту пожара на заводе «Электроцинк» во Владикавказе 09:44, Общество Женщина погибла при взрыве в Лондоне 09:18, Общество Гепатит в России – почему это касается каждого и как себя обезопасить 09:10, РБК и Philips В МЧС предупредили об угрозе взрыва на горящем заводе во Владикавказе 09:08, Общество Крупнейший охранный корабль усилил украинский флот в Азовском море 08:37, Политика Самолет из Москвы не смог сесть в Абакане и отправился в Красноярск 08:08, Общество В Китае более 20 шахтеров оказались заблокированы в забое 07:34, Общество Игра: спасите свой бизнес от санкций и недобросовестных контрагентов 07:00, РБК и Thomson Reuters Погибшим при тушении пожара на заводе в Северной Осетии оказался пожарный 06:55, Общество NYT сообщила о «фабрике троллей» из Саудовской Аравии 06:40, Политика Минобороны назвало цену Т-34 и ППШ во время Великой Отечественной войны 05:47, Общество На крупнейшем заводе в Северной Осетии произошел пожар 05:14, Общество В Нигерии жертвами столкновений мусульман с христианами стали 55 человек 04:36, Политика Трамп заявил о намерении разорвать с Россией договор РСМД 03:23, Политика Посольство на Кипре проверит информацию о гибели двух россиян в Пафосе 03:12, Общество В Подмосковье грузовик разрушил прицепом надземный пешеходный переход 01:46, Общество
Забудьте про клавиатуру: как компьютер заговорил на человеческом языке
Технологии и медиа, 14 окт 2015, 15:56
0
Давид Ян Забудьте про клавиатуру: как компьютер заговорил на человеческом языке
Электронного ассистента Siri люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах

​Эволюция интерфейсов

Это все-таки случилось! Компьютеры вот-вот начнут говорить на человеческом языке, а холодильники будут рассказывать анекдоты и беседовать на тему здорового питания. Я имею в виду технологический тренд, набирающий силу последние годы, — conversational interfaces, голосовые-языковые интерфейсы.

Они навсегда изменят характер взаимодействия человека и устройств вокруг него. Голосовые интерфейсы будут окружать нас повсюду: дома, по пути на работу, на работе, в магазине.

По данным Google, уже 55% американских тинейджеров и 41% взрослых используют голосовые интерфейсы более одного раза в день. Для первых это так же естественно, как, например, проверить социальные сети или сделать селфи. При этом 89% подростков и 85% взрослых людей уверены, что за голосовыми интерфейсами будущее.

Я всегда был убежден, что это должно произойти. С начала 2000-х годов, когда мы в ABBYY только начинали заниматься семантическими технологиями, я говорил о том, что будущее за голосовым интерфейсом. Моя убежденность основывалась на простом понимании, что человек начал использовать язык для общения с эпохи Homo Sapiens Neanderthalensis и благодаря голосовому интерфейсу между людьми создал свою культуру, способ мышления и стал общественным существом (social animal). Небольшой период истории человечества длиной в 50 лет, начиная с 60–70 годов прошлого столетия, мы были вынуждены использовать для общения с машиной придуманный нами самими, но инородный нам по духу компьютерный язык. Просто потому, что все эти годы машина была слишком глупой, чтобы понимать язык человека.

Но мне было совершенно очевидно, что когда-нибудь, когда компьютер станет достаточно производительным, человек научит его своему, человеческому, языку, который люди используют уже сотни тысяч лет.

В конце 80-х — начале 90-х компании Apple и Xerox совершили первую революцию в истории взаимодействия человека и компьютера, открыв миру GUI (графический пользовательский интерфейс). Этот интерфейс позволил получить доступ к технологиям людям, очень далеким от компьютеров. Ведь до оконных интерфейсов существовала только командная строка на черном экране и нужно было помнить команды операционной системы наизусть. За 20 лет GUI фактически изменил мир, сегодня графические интерфейсы позволяют как бабушкам, так и трехлетним детям пользоваться ПК, планшетами и умными телефонами.

Парадокс заключается в том, что примерно в то же время 20 лет назад, когда одна лаборатория Xerox разрабатывала оконный графический интерфейс, другая лаборатория этой компании занималась голосовыми технологиями, которые получили распространение только в 2009 году. И снова Xerox и Apple совершают прорыв во взаимодействии человека и компьютера.

Электронного ассистента Siri, встроенного в мобильный телефон, люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах.

Крупнейшие компании создают собственные интерфейсы на человеческом языке: Google Now, Microsoft Cortana, Amazon Echo, Facebook M. Параллельно с гигантами сотни компаний поменьше и совсем крохотных стартапов ведут разработки, связанные с conversational interfaces.

Какие это системы, что в них общего и чем они отличаются друг от друга?

Всюду помощники

Наибольшей популярностью сегодня пользуются Google Now и Siri в силу распространенности платформ, на которых они существуют: Android и iOS соответственно. Система Google Now больше направлена на то, чтобы находить нужную информацию в интернете, а Siri — на управление личными ресурсами.

Однако в ноябре 2014 года в схватку вступила компания Amazon со своим устройством Echo и электронным ассистентом Alexa. Система создана с целью управлять умным домом, отвечать на вопросы и искать информацию. Примечательно то, что Alexa умеет достаточно надежно отличать голос хозяина дома от шума вокруг и даже от других голосов. Технология уже начинает понимать не только команды, связанные с заказом товаров в интернете, но и взаимодействовать с окружающей инфраструктурой — открывать холодильники, включать свет, понимать погоду за окном и открывать шторы.

С появлением Amazon Echo, Apple Homekit и облачного сервиса для интернета вещей от Microsoft все ожидают существенного изменения поведения людей дома, особенно с учетом того, что эти системы учатся нашему расписанию, нашим привычкам и предугадывают их.

Компания SoundHound утверждает, что создала умного ассистента — более совершенного, чем Siri. Ассистент по имени Hound умеет не только выполнять поиск, но и дает ответы на сложные вопросы, понимая контекст. Пользователь может спросить, например: «Какова площадь столицы Франции?» — и система поймет, что столица Франции — Париж, и найдет ответ. Если пользователь затем спросит: «А у Токио?», то Hound поймет, что диалог продолжается в ранее заданном контексте, и ответит на вопрос. Дальше начинается соревнование, насколько глубоко система может поддерживать контекст и как долго она способна извлекать нужное.

С появлением системы Facebook M можно ожидать следующего большого скачка в возможностях языковых диалоговых интерфейсов. Facebook использует текстовые сообщения в мессенжере для тестирования системы. Создавая систему обучения диалогам, Facebook посадила в чат тысячи живых людей, которые параллельно с машиной обрабатывают каждый запрос, отвечая на вопросы пользователя. Так, например, можно через этого ассистента назначить время для прохождения экзаменов на водительские права в США. За действиями живого человека в чате следит система на базе глубинного обучения, которая учится повторяющимся паттернам, ведению диалога, тому, как люди задают вопросы и что делают после получения уточняющей информации. В результате машина обучается все большему количеству паттернов поведения и все меньше действий выполняют люди. А с учетом многомиллиардной ежемесячной аудитории Facebook у компании есть беспрецедентная возможность доступа к поведению и запросам пользователя.

Проект Say Shopping позволяет голосом заказывать товары в магазинах Target. Проект Findo, разрабатываемый ABBYY, будет давать возможность пользователям находить личные документы с помощью интерфейса на человеческом языке.

Чтобы накапливать знания, домены, области знаний и различные онтологии, компания Api.ai (ассистент Speaktoit) открыла свой интерфейс для сторонних разработчиков. Таким образом, когда одна сеть гостиниц с помощью своих инженеров обучает систему вести диалог о бронировании номеров, этот навык становится доступным для других разработчиков. То есть разные разработчики собирают в одну копилку общие навыки и пользуются чужими.

Более узкоспециальные системы типа Cubic Robotics пытаются решить проблему ведения диалога на тему отдельно взятого бытового предмета или умного дома. При этом общение даже на уровне того, как сделать потеплее в гостиной и выключить свет на кухне, когда человек уйдет, требует определенной работы. Молодой стартап, получивший прописку в Y Combinator, под названием Luka умеет вести диалог на тему рекомендаций ресторанов и заказов столиков. Интересно то, что все три молодые компании — Speaktoit, Cubic Robotics и Luka — расположены в сердце Кремниевой долины, но имеют российские корни и ведут разработки на территории России.

Подводя итог, можно сказать, что картина выглядит примерно так: игроки поменьше пытаются научить своих ассистентов конкретной узкой области и сделать их в этом экспертами. Крупные игроки типа Apple, Amazon, Google, Microsoft и Samsung видят будущее в том, что их ассистенты будут сопровождать пользователя в каждую секунду, перетекая из телефона в умные часы, из часов — в холодильник, самоуправляемый автомобиль, дрон или​ робот-пылесос. Они пытаются охватить все аспекты нашей жизни и нашего поведения, используя разные устройства, операционные системы на разных носителях, постоянно вступая с нами в диалог. Так ассистенты узнают все привычки пользователя и научатся понимать его с полуслова, предугадывая его потребности.

Таким образом, в будущем пользователь начнет выбирать не операционную систему, а ассистента — Cortana, Siri или другого. Этот помощник будет сопровождать человека годы, и за это время узнает все о нем. В результате пользователь уже не захочет переключиться на другого ассистента, так как его придется учить всему заново.

Об авторах
Давид Ян Основатель компании ABBYY
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.