Реєстрація    Увійти
Авторизація
» » » » Искусственный интеллект может имитировать ваш голос. Его создали украинцы

Искусственный интеллект может имитировать ваш голос. Его создали украинцы

Категорія: Позиція » Новини Позиція » Наука та IT
Искусственный интеллект может имитировать ваш голос. Его создали украинцы Вы слышите аудиозапись: на которой вашим голосом звучат слова, которых вы никогда не произносили. Когда-то это было фантастикой, теперь - вполне реальная технология.

Украинская компания Respeecher уже два года работает над искусственным интеллектом, способным синтезировать голос любого человека.

Не без успеха. У компании уже есть контракт с голливудской студией, которая применяет эту технологию в кино, а видео, наглядно демонстрируют возможности Respeecher, которые собирают сотни тысяч просмотров на Youtube.

BBC News Украина поговорила с основателем Respeecher Александр Сердюком о том, как работает технология, как далеко ей до идеала и есть хоть какие-то шансы, что подобные инструменты рано или поздно не попадут в плохие руки.
 
 

Как заставить Никсона сказать то, чего он не говорил

Недавно в сети появилось видео, на котором происходит что-то странное: Ричард Никсон, президент США в 1969-1974 годах, рассказывает о гибели астронавтов миссии "Аполлон-11", которая в 1969 году должна была первой доставить людей на Луну.

В реальности миссия прошла успешно, ни один из астронавтов не погиб. О чем же тогда говорит Никсон?

Он не говорит. Видео - подделка, созданная в Массачусетском институте технологий. Никсона "заставили" зачитать речь, текст которой когда-то был написан на случай провала космической миссии, но с которой президент так никогда и не вышел на публику.
 
Чтобы создать это видео, авторам понадобились две основные технологии. Первая - искусственный интеллект от Respeecher, который синтезирует голос Никсона.

Вторая - искусственный интеллект от компании Canny AI, который изменил архивный видеозапись одной из настоящих речей президента США так, чтобы движения губ и мимика Никсона совпадали с тем текстом, который он произносит благодаря Respeecher.

Проект не остался незамеченным. Об "обращении" Никсона написали десятки западных СМИ - от специализированных изданий о науке и технологии в Newsweek и Euronews. В ноябре широкую версию видеозаписи показали на Международном фестивале документального кино в Амстердаме.
 

Как это работает?

На месте Никсона может быть кто угодно: Трамп, Черчилль, Роберт Де Ниро и даже вы.

К примеру, Respeecher должен научиться имитировать ваш голос. Для начала нужны две аудиодорожки: на одной - запись вашего голоса, на другой - запись актера, которую слово в слово повторяет произнесенный вами текст.

На этом этапе программа тренируется: сравнивает обе записи и выясняет, чем один голос отличается от другого.

Теперь, когда искусственный интеллект понимает разницу, он способен превращать голос актера в ваш - какой бы текст он не зачитывал.

Чтобы программа сработала эффективно, ей нужно проанализировать крайней мере час записи целевого голоса - того, который надо сымитировать. С высокой вероятностью за это время она услышит достаточное разнообразие слов и звукосочетаний, проанализирует особенности целевого голоса и поймет, как их следует воспроизводить.

Что это за голоса, говорит основатель Respeecher Александр Сердюк, не имеет никакого значения: низкий голос можно превратить в высокий, мужской на женский, а детский во взрослый.

"На рынке есть два основных подхода к синтезированию голоса. Большинство продуктов работает по принципу "text to speech", когда голос генерируется из текста. Мы принципиально от них отличаемся: Respeecher синтезирует нужный голос с голоса другого человека", - объясняет Сердюк в разговоре с BBC News Украина.

"Такой подход более эффективен. Когда ты генерируешь голос из текста, твои возможности очень ограничены. Ты не имеешь возможности контролировать эмоциональную окраску голоса и результат получается несколько механическим. У нас эту проблему решает актер, который может подобрать нужные интонации".

"Кроме того, инструменты, которые синтезируют голос из текста, иногда нуждаются до 20 часов записи целевого голоса - именно столько им нужно, чтобы натренировать искусственный интеллект. Нам достаточно часа", - рассказывает Сердюк.