Перейти к основному контенту
Технологии и медиа ,  
0 

«Яндекс» выпустил приложение для перевода речи в текст

«Яндекс» представил 30 октября на ежегодной конференции для разработчиков технологию по распознаванию и синтезу речи. Она уже была доступна сторонним разработчикам: теперь ей могут пользоваться в мобильном приложении «Яндекс.Диктовка» обычные пользователи.

Технология называется Yandex SpeechKit, с ее помощью можно, в частности, активировать разные команды голосом, переводить речь в текст и наоборот озвучивать тексты, причем выбирая интонацию, управлять устройством с помощью голоса. Руководитель отдела голосовых технологий и продуктов Денис Филиппов рассказал РБК, что с ее помощью можно создавать голосовые интерфейсы, например «научить» кофеварку готовить напиток по голосовой команде. Объем рынка голосовых технологий Филиппов оценивает в сотни миллионов долларов в год.

Синтез речи, по мнению Филиппова, может найти массу применений, например в озвучивании новостей в мобильных приложениях, в аудиокнигах и проч. 

Кроме того, технология умеет выделять смысловые объекты, то есть выделить в распознанном тексте стандартные понятия, например, дату, время, фамилию или адрес. Это используется, чтобы управлять устройствами простыми фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи, дальше идет оформление заказа.

Пока система распознает русский и турецкий языки, в планах  английский. Она встроена в мобильное приложение «Яндекс.Диктовка». Это только демо-версия: распознавать спонтанную речь оно не может, только тексты произвольной тематики от одного человека. Филиппов объясняет, что при расшифровке диалога система должна уметь переключаться на разную тематику, после этого  подключать языковую модель, что сделать оперативно пока сложно.  

Затраты на собственную разработку «Яндекс» не раскрывает. Представители компании утверждают, что создали продукт своими силами  без привлечения сторонних специалистов.

Подобные технологии есть и у других интернет-компаний: у Apple есть несколько приложений (разработчик  Nuance). Например, программа Dragon Dictation распознает текст и позволяет скопировать и вставить его в другое приложение, а также сразу отослать в электронном письме или SMS, отправить в Twitter или Facebook, а Dragon Search  это голосовой поиск. Dragon Dictation и Dragon Search используют облачные технологии, а база голосовых данных для распознавания речи находится на серверах Nuance, пишет Apple Insider, поэтому их работа зависит от скорости интернета.

В устройствах с операционной системой Android (разработчик  Google) есть голосовой поиск, возможность перевода речи в текст. С 2013 года функция распознавания речи появилась и в браузере Google Chrome: система умеет переводить устную речь в печатный текст. Разработчики благодаря Web Speech API могут встраивать функции, связанные с распознаванием речи и выполнением голосовых команд, в свои приложения.

Технологии обеих компаний умеют распознавать русский язык.

Руководитель отдела голосовых технологий и продуктов «Яндекса» уверяет, что Yandex SpeechKit, в отличие от зарубежных конкурентов, лучше распознает русский язык. Он добавил, что Google дает возможность сторонним разработчикам использовать технологию только в оперативной системе Android, а технологии «Яндекса» доступны на разных операционных системах и других объектах, например, их возможно встроить в автомобиль или кофеварку. Также у Google нет голосовой активации и выделения смысловых объектов, говорит Филиппов.
 
Свою технологию распознавания речи Yandex SpeechKit российская компания представила в прошлом году. Она основана на исследовании больших массивов данных, обучении нейронных сетей и вычислительных мощностях «Яндекса», поясняют разработчики. Они уверяют, что система верно распознает 88% слов по коротким запросам, 95% слов – по геозапросам.

Сторонние разработчики получают технологии «Яндекса», подписавшись на библиотеку Yandex SpeechKit Mobile SDK: она позволяет встраивать речевые технологии в приложения для Android, iOS и Windows Phone. «Яндекс» гарантирует работу только тех приложений, которым нужно до 10 тыс. головых запросов в сутки. Все данные компания обрабатывает на своих серверах.

Yandex SpeechKit работает примерно в 500 мобильных приложениях, в том числе самой компании («Яндекс.Навигатор», «Яндекс.Браузер», «Яндекс.Город», «Яндекс.Карты» и «Яндекс.Поиск»). Услуга заинтересовала разработчиков из разных сфер, утверждают в пресс-службе. «Это приложения совершенно различных тематик: от игр до специализированных корпоративных приложений» сказала РБК представитель компании Юлия Бабикова.

Кроме мобильного сервиса, в августе 2014 года «Яндекс» запустил облачный. SpeechKit Cloud позволяет добавить функцию распознавания речи в разные программы и устройства  от компьютерной игры до робота. Эта технология, уверяют в компании, уже используется в колл-центрах для автоматизации обращений, с большим количеством партнеров из разных сфер ведутся переговоры.

SpeechKit Cloud доступен на коммерческой основе. «Мы выдали 600 ключей компаниям из разных сфер (робототехника, телефония, медицина и других), которые вот прямо сейчас тестируют технологию распознавания речи Yandex SpeechKit в своих продуктах и сервисах»,  пояснили РБК в пресс-службе «Яндекса».

СберПро Медиа Интересное

Меры государственной поддержки бизнеса: подборка за I квартал 2024 года

СберПро Медиа Финансы

Как новое поколение недропользователей меняет золотодобычу: кейс «Золото Дельмачик»

СберПро Медиа Интересное

Кто такой CSM? И зачем бизнесу менеджер по успеху

СберПро Медиа Туризм

Отдохнуть и полечиться. Какие туристические проекты запускались
в 2023 году в России

СберПро Медиа Интересное

На диджитал-рельсы: как правильно организовать цифровизацию в компании

СберПро Медиа Недвижимость

Барометр отрасли: рынок строительного подряда

СберПро Медиа ТМТ

В каждом смартфоне. 9 трендов в разработке мобильных приложений

СберПро Медиа Лесопромышленный комплекс

Барометр отрасли: лесопромышленный комплекс

СберПро Медиа Интересное

Как российские компании переходят на отечественные АБС-пластики

СберПро Медиа Интересное

Нейросетевой мозг
для кобота. Ключевые тренды российской робототехники

Теги
Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.

  

Лента новостей
Курс евро на 19 апреля
EUR ЦБ: 100,53 (+0,25)
Инвестиции, 18 апр, 16:37
Курс доллара на 19 апреля
USD ЦБ: 94,09 (-0,23)
Инвестиции, 18 апр, 16:37
В Москве закрыли все парки из-за предупреждения о штормовом ветре Общество, 15:01
Лавров назвал Швейцарию неподходящим местом для диалога по Украине Политика, 14:59
Выдачи микрозаймов слишком закредитованным россиянам резко упали Финансы, 14:58
Трейдеры криптовалют потеряли $270 млн на ликвидациях перед халвингом Крипто, 14:58
Подозреваемого в убийстве из-за парковки задержали в Ростовской области Общество, 14:57
Reuters узнал, что ЕЦБ потребует от UniCredit сократить бизнес в России Финансы, 14:55
Спрос иностранцев на обмен активами превысил предложение россиян Инвестиции, 14:52
Здоровый сон: как легче засыпать и просыпаться
Интенсив РБК Pro поможет улучшить качество сна и восстановить режим
Подробнее
HITC узнал об интересе «Ман Сити» и «Челси» к рекордсмену сборной России Спорт, 14:45
На трассе между Москвой и Петербургом снизили скорость из-за снегопада Общество, 14:44
«Роскосмос» показал фотографию обрушившегося на центр России шторма Общество, 14:43
Командир катапультировал штурманов и помощника с падающего ТУ-22М3 Общество, 14:41
Тейлор Свифт выпустила новый музыкальный альбом Life, 14:37
Двух старшеклассников задержали за попытку поджечь Ми-8 на аэродроме Политика, 14:35
Лавров заявил о бессмысленности переговоров с Зеленским Политика, 14:34