Обучение производилось на нескольких миллионах видео. После этого машина значительно поумнела.
Новой разработкой занимались учёные, работающие в Массачусетском технологическом институте. В результате их экспериментов, нейросеть научилась воссоздавать лицо человека по его голосу.
Для этого нейросеть осуществляет его спектрограмму. При этом, она использует три основные параметра. Это пол, раса и возраст.
Оказалось, что пол определить по голосу достаточно легко. Немного сложнее с возрастом, но и с этим нейросеть справляется без проблем. По наличию акцентов, можно представить и национальность.
После этого нейросеть приступает к воссозданию лица человека. Первые опыты показали, что во многих случаях имеется достаточно неплохое совпадение. В то же время, говорить о том, что оно достаточно точное, ещё слишком рано.
Учёные, проводившие эксперимент, сообщили, что натренированная нейросеть имеет следующую архитектуру. Сначала один из её алгоритмов, ранее использовавшийся для определения сексуальной ориентации человека, использует некоторые особенности лица из кадра и создаёт изображение в анфас. При этом, выражение лица является нейтральным.
Другая часть алгоритма занимается созданием на базе аудиодорожки, сопровождавшей видео, спектрограммы речи. Затем, она обращается к результатам, которые получила параллельная нейросеть.
В итоге, получается приблизительное изображение лица человека, разговаривавшего на видео.
Точность разработанного алгоритма оценивалась по трём параметрам, касающихся демографических показателей. Это воссоздание примерного возраста, пола и расы на оригинальном изображении с тем, что получилось из восстановления этого на основе голоса.
Безусловно, авторы добились некоторых успехов по восстановлению лиц не основе голоса. Некоторые из них достаточно похожи на оригиналы.
Однако, с помощью объективных методик было получено заключение, что разработанная модель ещё очень несовершенна.
В частности, нейросеть на отлично справляется с угадыванием пола человека. В то же время с определением возраста есть некоторые проблемы. Точность может составлять до десяти лет.
Помимо того, нейросеть лучше всего изображает лицо человека, если у того европеоидная или азиатская внешность. Впрочем, это можно пояснить тем, что обучающая выборка содержала неравномерное распределение рас. То есть, учёным ещё есть над чем поработать.
Исследователи сообщили, что пока они и не пытались достичь точного восстановления по голосу человека его внешности. Акценты были поставлены на поле, возрасте, а также этнической принадлежности.
Поэтому нейросеть пока что не может с достаточной точностью на основании лишь одного голоса сделать достаточно точное изображение его внешности.
Однако, считают учёные, определённая польза от их эксперимента есть. Тех параметров, с которыми нейросеть справляется, вполне достаточно для создания аватаров человека с использованием лишь одного голоса.
В будущем на основании полученных данных можно будет лучше изучить, какие корреляции можно произвести с внешностью.
Видимо, эта разработка, после того, как станет более совершенной, может заинтересовать и правоохранителей. Например, при поиске телефонных «минёров» и в других случаях.
Буквально на прошлой неделе был продемонстрирован другой алгоритм нейросети. С помощью него, статичные изображения на фотографиях и картинах начинали двигаться.