Искусственный интеллект может имитировать ваш голос. Его создали украинцы
22 грудня 2019 11:23
Переглядів: 401
Коментарів: 0
Надрукувати
Вы слышите аудиозапись: на которой вашим голосом звучат слова, которых
вы
никогда не произносили. Когда-то это было фантастикой, теперь - вполне
реальная технология.
Украинская компания Respeecher уже два года работает над искусственным интеллектом, способным синтезировать голос любого человека.
Не без успеха. У компании уже есть контракт с голливудской студией, которая применяет эту технологию в кино, а видео, наглядно демонстрируют возможности Respeecher, которые собирают сотни тысяч просмотров на Youtube.
BBC News Украина поговорила с основателем Respeecher Александр Сердюком о том, как работает технология, как далеко ей до идеала и есть хоть какие-то шансы, что подобные инструменты рано или поздно не попадут в плохие руки.
Как заставить Никсона сказать то, чего он не говорилНедавно в сети появилось видео, на котором происходит что-то странное: Ричард Никсон, президент США в 1969-1974 годах, рассказывает о гибели астронавтов миссии "Аполлон-11", которая в 1969 году должна была первой доставить людей на Луну.
В реальности миссия прошла успешно, ни один из астронавтов не погиб. О чем же тогда говорит Никсон?
Он не говорит. Видео - подделка, созданная в Массачусетском институте технологий. Никсона "заставили" зачитать речь, текст которой когда-то был написан на случай провала космической миссии, но с которой президент так никогда и не вышел на публику.
Чтобы создать это видео, авторам понадобились две основные технологии. Первая - искусственный интеллект от Respeecher, который синтезирует голос Никсона.
Вторая - искусственный интеллект от компании Canny AI, который изменил архивный видеозапись одной из настоящих речей президента США так, чтобы движения губ и мимика Никсона совпадали с тем текстом, который он произносит благодаря Respeecher.
Проект не остался незамеченным. Об "обращении" Никсона написали десятки западных СМИ - от специализированных изданий о науке и технологии в Newsweek и Euronews. В ноябре широкую версию видеозаписи показали на Международном фестивале документального кино в Амстердаме.
Как это работает? На месте Никсона может быть кто угодно: Трамп, Черчилль, Роберт Де Ниро и даже вы.
К примеру, Respeecher должен научиться имитировать ваш голос. Для начала нужны две аудиодорожки: на одной - запись вашего голоса, на другой - запись актера, которую слово в слово повторяет произнесенный вами текст.
На этом этапе программа тренируется: сравнивает обе записи и выясняет, чем один голос отличается от другого.
Теперь, когда искусственный интеллект понимает разницу, он способен превращать голос актера в ваш - какой бы текст он не зачитывал.
Чтобы программа сработала эффективно, ей нужно проанализировать крайней мере час записи целевого голоса - того, который надо сымитировать. С высокой вероятностью за это время она услышит достаточное разнообразие слов и звукосочетаний, проанализирует особенности целевого голоса и поймет, как их следует воспроизводить.
Что это за голоса, говорит основатель Respeecher Александр Сердюк, не имеет никакого значения: низкий голос можно превратить в высокий, мужской на женский, а детский во взрослый.
"На рынке есть два основных подхода к синтезированию голоса. Большинство продуктов работает по принципу "text to speech", когда голос генерируется из текста. Мы принципиально от них отличаемся: Respeecher синтезирует нужный голос с голоса другого человека", - объясняет Сердюк в разговоре с BBC News Украина.
"Такой подход более эффективен. Когда ты генерируешь голос из текста, твои возможности очень ограничены. Ты не имеешь возможности контролировать эмоциональную окраску голоса и результат получается несколько механическим. У нас эту проблему решает актер, который может подобрать нужные интонации".
"Кроме того, инструменты, которые синтезируют голос из текста, иногда нуждаются до 20 часов записи целевого голоса - именно столько им нужно, чтобы натренировать искусственный интеллект. Нам достаточно часа", - рассказывает Сердюк.
|