Лента новостей
Куда пойдет цена бензина: экономический тест для бизнесменов 18:04, РБК и Thomson Reuters Зорькин подарил Путину книгу решений Конституционного суда 18:03, Общество Экс-глава «Перекрестка» перешел топ-менеджером в «Магнит» 17:58, Бизнес ЦБ сообщил о стремительном росте объема переводов с карты на карту 17:56, Финансы ВЭБ предложил передать Связь-банк на баланс Промсвязьбанка 17:47, Финансы СМИ узнали о задержании футболиста «Спартака» на таможне в Шереметьево 17:46, Спорт В ГИБДД допустили появление в автошколах курса по оказанию первой помощи 17:46, Общество К Пономареву перевели некурящих сокамерников 17:41, Общество Сестра Сенцова получила за него премию Сахарова 17:31, Общество Голикова назвала число оставшихся ветеранов Великой Отечественной войны 17:29, Общество Избранная генпрокурор Нью-Йорка анонсировала расследование против Трампа 17:28, Политика Как четвертая промышленная революция повлияет на транспорт в России 17:21, РБК и ГТЛК Аэропорт Домодедово установит рамки для проверки сотрудников на трезвость 17:11, Общество Мединский предложил назвать новый танк «Кобзарь» 17:05, Общество РФПИ подтвердил перенос финансирования ЦКАД итальянской Anas на 2019 год 17:00, Бизнес Как будут праздновать Рождество в Москве 16:58, РБК и Путешествие в Рождество Чего ждать от альткоинов: Litecoin, Cardano, BCash и Tron подорожали 16:57, Крипто Меркель заявила о поддержке Германией продления антироссийских санкций 16:55, Политика Как выглядит офис «Лаборатории Касперского» в Мадриде 16:41, Недвижимость  Парковка в Москве будет бесплатной в новогодние праздники 16:40, Общество Что происходит на рынке коммерческой недвижимости 16:40, Недвижимость Росавиация заявила о выселении туристов «Жемчужной реки» из отелей Китая 16:36, Общество Путин предложил ежегодно оказывать ветеранам материальную помощь 16:26, Общество Депутат предложил после ЧМ-2018 сделать рекламу пива на ТВ постоянной 16:23, Технологии и медиа Квартира Кейт Миддлтон в Челси продается за $2,9 млн 16:22, Стиль Глава СПЧ назвал аресты за неуважение к власти нарушением свободы слова 16:21, Политика Сергей Негляд — РБК: «Планируем войти в десятку молочных компаний России» 15:55, Партнерский материал Мантуров оценил ущерб бюджету от нелегальной торговли сигаретами 15:52, Общество
Забудьте про клавиатуру: как компьютер заговорил на человеческом языке
Технологии и медиа, 14 окт 2015, 15:56
0
Давид Ян Забудьте про клавиатуру: как компьютер заговорил на человеческом языке
Электронного ассистента Siri люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах

​Эволюция интерфейсов

Это все-таки случилось! Компьютеры вот-вот начнут говорить на человеческом языке, а холодильники будут рассказывать анекдоты и беседовать на тему здорового питания. Я имею в виду технологический тренд, набирающий силу последние годы, — conversational interfaces, голосовые-языковые интерфейсы.

Они навсегда изменят характер взаимодействия человека и устройств вокруг него. Голосовые интерфейсы будут окружать нас повсюду: дома, по пути на работу, на работе, в магазине.

По данным Google, уже 55% американских тинейджеров и 41% взрослых используют голосовые интерфейсы более одного раза в день. Для первых это так же естественно, как, например, проверить социальные сети или сделать селфи. При этом 89% подростков и 85% взрослых людей уверены, что за голосовыми интерфейсами будущее.

Я всегда был убежден, что это должно произойти. С начала 2000-х годов, когда мы в ABBYY только начинали заниматься семантическими технологиями, я говорил о том, что будущее за голосовым интерфейсом. Моя убежденность основывалась на простом понимании, что человек начал использовать язык для общения с эпохи Homo Sapiens Neanderthalensis и благодаря голосовому интерфейсу между людьми создал свою культуру, способ мышления и стал общественным существом (social animal). Небольшой период истории человечества длиной в 50 лет, начиная с 60–70 годов прошлого столетия, мы были вынуждены использовать для общения с машиной придуманный нами самими, но инородный нам по духу компьютерный язык. Просто потому, что все эти годы машина была слишком глупой, чтобы понимать язык человека.

Но мне было совершенно очевидно, что когда-нибудь, когда компьютер станет достаточно производительным, человек научит его своему, человеческому, языку, который люди используют уже сотни тысяч лет.

В конце 80-х — начале 90-х компании Apple и Xerox совершили первую революцию в истории взаимодействия человека и компьютера, открыв миру GUI (графический пользовательский интерфейс). Этот интерфейс позволил получить доступ к технологиям людям, очень далеким от компьютеров. Ведь до оконных интерфейсов существовала только командная строка на черном экране и нужно было помнить команды операционной системы наизусть. За 20 лет GUI фактически изменил мир, сегодня графические интерфейсы позволяют как бабушкам, так и трехлетним детям пользоваться ПК, планшетами и умными телефонами.

Парадокс заключается в том, что примерно в то же время 20 лет назад, когда одна лаборатория Xerox разрабатывала оконный графический интерфейс, другая лаборатория этой компании занималась голосовыми технологиями, которые получили распространение только в 2009 году. И снова Xerox и Apple совершают прорыв во взаимодействии человека и компьютера.

Электронного ассистента Siri, встроенного в мобильный телефон, люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах.

Крупнейшие компании создают собственные интерфейсы на человеческом языке: Google Now, Microsoft Cortana, Amazon Echo, Facebook M. Параллельно с гигантами сотни компаний поменьше и совсем крохотных стартапов ведут разработки, связанные с conversational interfaces.

Какие это системы, что в них общего и чем они отличаются друг от друга?

Всюду помощники

Наибольшей популярностью сегодня пользуются Google Now и Siri в силу распространенности платформ, на которых они существуют: Android и iOS соответственно. Система Google Now больше направлена на то, чтобы находить нужную информацию в интернете, а Siri — на управление личными ресурсами.

Однако в ноябре 2014 года в схватку вступила компания Amazon со своим устройством Echo и электронным ассистентом Alexa. Система создана с целью управлять умным домом, отвечать на вопросы и искать информацию. Примечательно то, что Alexa умеет достаточно надежно отличать голос хозяина дома от шума вокруг и даже от других голосов. Технология уже начинает понимать не только команды, связанные с заказом товаров в интернете, но и взаимодействовать с окружающей инфраструктурой — открывать холодильники, включать свет, понимать погоду за окном и открывать шторы.

С появлением Amazon Echo, Apple Homekit и облачного сервиса для интернета вещей от Microsoft все ожидают существенного изменения поведения людей дома, особенно с учетом того, что эти системы учатся нашему расписанию, нашим привычкам и предугадывают их.

Компания SoundHound утверждает, что создала умного ассистента — более совершенного, чем Siri. Ассистент по имени Hound умеет не только выполнять поиск, но и дает ответы на сложные вопросы, понимая контекст. Пользователь может спросить, например: «Какова площадь столицы Франции?» — и система поймет, что столица Франции — Париж, и найдет ответ. Если пользователь затем спросит: «А у Токио?», то Hound поймет, что диалог продолжается в ранее заданном контексте, и ответит на вопрос. Дальше начинается соревнование, насколько глубоко система может поддерживать контекст и как долго она способна извлекать нужное.

С появлением системы Facebook M можно ожидать следующего большого скачка в возможностях языковых диалоговых интерфейсов. Facebook использует текстовые сообщения в мессенжере для тестирования системы. Создавая систему обучения диалогам, Facebook посадила в чат тысячи живых людей, которые параллельно с машиной обрабатывают каждый запрос, отвечая на вопросы пользователя. Так, например, можно через этого ассистента назначить время для прохождения экзаменов на водительские права в США. За действиями живого человека в чате следит система на базе глубинного обучения, которая учится повторяющимся паттернам, ведению диалога, тому, как люди задают вопросы и что делают после получения уточняющей информации. В результате машина обучается все большему количеству паттернов поведения и все меньше действий выполняют люди. А с учетом многомиллиардной ежемесячной аудитории Facebook у компании есть беспрецедентная возможность доступа к поведению и запросам пользователя.

Проект Say Shopping позволяет голосом заказывать товары в магазинах Target. Проект Findo, разрабатываемый ABBYY, будет давать возможность пользователям находить личные документы с помощью интерфейса на человеческом языке.

Чтобы накапливать знания, домены, области знаний и различные онтологии, компания Api.ai (ассистент Speaktoit) открыла свой интерфейс для сторонних разработчиков. Таким образом, когда одна сеть гостиниц с помощью своих инженеров обучает систему вести диалог о бронировании номеров, этот навык становится доступным для других разработчиков. То есть разные разработчики собирают в одну копилку общие навыки и пользуются чужими.

Более узкоспециальные системы типа Cubic Robotics пытаются решить проблему ведения диалога на тему отдельно взятого бытового предмета или умного дома. При этом общение даже на уровне того, как сделать потеплее в гостиной и выключить свет на кухне, когда человек уйдет, требует определенной работы. Молодой стартап, получивший прописку в Y Combinator, под названием Luka умеет вести диалог на тему рекомендаций ресторанов и заказов столиков. Интересно то, что все три молодые компании — Speaktoit, Cubic Robotics и Luka — расположены в сердце Кремниевой долины, но имеют российские корни и ведут разработки на территории России.

Подводя итог, можно сказать, что картина выглядит примерно так: игроки поменьше пытаются научить своих ассистентов конкретной узкой области и сделать их в этом экспертами. Крупные игроки типа Apple, Amazon, Google, Microsoft и Samsung видят будущее в том, что их ассистенты будут сопровождать пользователя в каждую секунду, перетекая из телефона в умные часы, из часов — в холодильник, самоуправляемый автомобиль, дрон или​ робот-пылесос. Они пытаются охватить все аспекты нашей жизни и нашего поведения, используя разные устройства, операционные системы на разных носителях, постоянно вступая с нами в диалог. Так ассистенты узнают все привычки пользователя и научатся понимать его с полуслова, предугадывая его потребности.

Таким образом, в будущем пользователь начнет выбирать не операционную систему, а ассистента — Cortana, Siri или другого. Этот помощник будет сопровождать человека годы, и за это время узнает все о нем. В результате пользователь уже не захочет переключиться на другого ассистента, так как его придется учить всему заново.

Об авторах
Давид Ян Основатель компании ABBYY
Точка зрения авторов, статьи которых публикуются в разделе «Мнения», может не совпадать с мнением редакции.