Перейти к основному контенту
Бизнес ,  
0 

Компания Бекмамбетова начала «клонировать» голоса знаменитостей

Проект Vera Voice занимается развитием нейросети, которая будет способна воспроизводить голоса знаменитостей на русском языке. Ранее Сбербанк заявлял об опасности мошенничества с помощью таких технологий
Тимур Бекмамбетов
Тимур Бекмамбетов (Фото: Евгений Биятов / РИА Новости)

Screenlife Technologies, компания продюсера Тимура Бекмамбетова, и «Стафори» (разработчик HR-сервиса на основе искусственного интеллекта «Робот Вера», в которую инвестирует ФРИИ), создают совместное предприятие для развития проекта Vera Voice. Об этом говорится в поступившем в РБК сообщении компаний.

Проект Vera Voice позволит воспроизводить голоса знаменитостей на русском языке. Он основан на технологии нейросети, которая обучается копировать речь на примере оригинала. Стоимость разработки основатели не назвали.

В России уже реализовывались подобные проекты. В частности, инвестором в подобные технологии является Сбербанк: учрежденная банком в 2013 году компания АБК в январе представила короткий ролик с синтезированным голосом актера Иннокентия Смоктуновского. На нем голос актера произносит: «Прослушав всего около 18 часов записи великого артиста, нейронная сеть теперь способна говорить его голосом».

После этого Сбербанк представил технологию на Российском инвестиционном форуме в Сочи. Зампред правления банка Станислав Кузнецов отметил, что подобные проекты могут использоваться и с незаконными целями. В качестве примера он включил запись, на которой некий вымышленный губернатор голосом Смоктуновского просит 5 млрд руб. на постройку моста.

Открытый алгоритм для синтеза человеческой речи с помощью нейросети под названием WaveNet еще в 2016 году представила принадлежащая Google компания DeepMind. На Западе подобные технологии «клонирования» голоса уже активно применяются: в июле 2019 года инженеры Facebook представили синтезатор речи, который, в частности, сгенерировал голос основателя Microsoft Билла Гейтса. В сентябре Amazon объявил, что голосовая колонка компании — Alexa — сможет разговаривать голосами знаменитостей. Первым стал актер Самуэль Ли Джексон. По оценке консалтинговой компании Markets&Markets, к 2023 году рынок клонирования голоса достигнет $1,73 млрд.

«Как и многие стартапы на русском языке — это клон уже существующей идеи. Есть разделы проблем машинного обучения, связанные с языком, для которых можно делать продукт на локальном рынке по образу и подобию англоязычных. Главное собрать достаточно большую выборку данных на нужном языке. В РФ этим занимаются такие гиганты как Яндекс и Сбербанк. Но для узких задач есть место и мелким игрокам», — заявил РБК российский специалист по data science Павел Плесков.

Индустрия развлечений может быть главным применением для такой технологии, добавил он. «Мошенничество — это самая главная угроза. «Синтезировать голос можно уже по семплу длиной в три секунды. А при текущей популярности робоколов (robocall — автоматический звонок. — РБК) «поделиться» со злоумышленниками таким семплом можно, просто сказав: «Алло! По какому вопросу звоните? С кем я разговариваю?» Дальше мошенники смогут, например, пройти авторизацию в банке по голосу», — пояснил он.

Генерацию голоса из текста старой задачей назвал и специалист компании ESR Labs AG из Германии Дмитрий Шефтелович. «Что касается «клонирования» голоса, то, как и во всех задачах машинного обучения, количество данных играет определяющую роль: для профессионального генерирования речи не так давно требовалось несколько часов записей определенной формы. На данный момент существуют реализации, которым хватает только нескольких секунд необязательно профессионально записанной речи, чтобы «научиться» голосу», — считает специалист.

«Синтез голосов знаменитостей — часть всеобщего интереса к «эмоциональному искусственному интеллекту», когда компании-разработчики пытаются добиться от роботов более естественного звучания, чтобы они не вызывали отторжения у клиентов и пользователей», — заявил РБК гендиректор группы компаний «Центр речевых технологий» Дмитрий Дырмовский. Он отметил, что у данной технологии может быть достаточно широкое применение — от озвучивания книг до маркетинговых компаний с голосами знаменитостей. В то же время синтез голоса может использоваться в ложной рекламе или для фальсификации новостей, отметил Дырмовский.

Авторы
Теги
Прямой эфир
Ошибка воспроизведения видео. Пожалуйста, обновите ваш браузер.
Лента новостей
Курс евро на 27 июля
EUR ЦБ: 93,26 (+0,09)
Инвестиции, 26 июл, 18:01
Курс доллара на 27 июля
USD ЦБ: 85,57 (+0,16)
Инвестиции, 26 июл, 18:01
Песков заявил, что «о мобилизации вообще никто не разговаривает»Политика, 05:08
В Госдуме анонсировали повышение размера детских пособий в 2025 годуОбщество, 04:58
Более 20 человек отравились хлором в бассейне в ВаршавеОбщество, 04:37
Bloomberg узнал, какой вопрос спас Ferrari от мошенничества с дипфейкомБизнес, 04:29
Глава Минюста допустил повышение предельного возраста нотариусовПолитика, 03:58
Американский банк наказали за «вопиющее» нарушение санкций против РоссииПолитика, 03:36
Уровень воды в реке снизился после прорыва дамбы в Челябинской областиОбщество, 03:34
Онлайн-курс Digital MBA от РБК
Объединили экспертизу профессоров MBA из Гарварда, MIT, INSEAD и опыт передовых ИТ-компаний
Оставить заявку
Зеленский назвал самое сложное направление для ВСУПолитика, 02:58
На церемонии открытия Игр в Париже повесили перевернутый олимпийский флагСпорт, 02:56
Курский губернатор сообщил об «очень сложной ночи» и сбитых дронахПолитика, 02:23
От кентавров до Джеймса Бонда. Самые яркие церемонии открытия ОлимпиадСпорт, 02:19
Как в Париже прошла церемония открытия Олимпийских игр. ФоторепортажСпорт, 02:17
WSJ рассказала, как вице-президент Трампа стал из милитариста пацифистомПолитика, 02:08
Cловакия предложила Киеву «техническое решение» по нефти ЛУКОЙЛаПолитика, 01:57