Innovación

Una vez subido el audio, la IA analiza la fotografía en busca de rasgos comunes en torno a la persona y crear una imagen muy parecida a la real de esta

Por iProUP

07.04.2022 • 20:30hs • Inteligencia artificial

Inteligencia artificial

Inteligencia Artificial: esta tecnología predice el rostro con solo escuchar la voz de la persona

La clasificación que una inteligencia artificial (IA) hace de las imagen de un rostro humano no siempre resultan precisas e, incluso, a veces se encuentra con terminología racista en sus conclusiones.

Sin embargo, existe una solución que promete alcanzar una corrección de excelencia.

Se trata de la IA desarrollada por investigadores del MIT, que crearon una tecnología capaz de diseñar el rostro de un individuo a partir de una grabación de su voz.

Investigadores del MIT desarrollaron una IA capaz de reproducir el rostro de una persona con solo escuchar su voz

IA que diseña el rostro solo con escuchar una voz

Este algoritmo de aprendizaje automático, llamado Speech2Face, fue elaborado a partir de millones de clips de audio de más de más de 100.000 hablantes distintos, muchos de ellos procedentes de videos educativos de Youtube.

Esta solución emplea un dataset para determinar la relación que impera entre las señales vocales y determinados rasgos faciales.

Ambos vienen determinados por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.

El funcionamiento del algoritmo gira en torno al uso de dos componentes principales:

Un codificador; que extrae y guarda el espectrograma de las ondas de audio, reconociendo una serie de características clave del mismo
Un decodificador; que en base a las mencionadas características genera una imagen del rostro, representado de frente y con gesto neutro

Speech2Face fue elaborado a partir de millones de clips de audio de más de más de 100.000 hablantes distintos

Tecnología con precisión étnica

La tecnología de Speech2Face muestra representaciones altamente fotorrealistas que, aún así, también son demasiado genéricas como para identificar a una persona específica.

Pero sí permite establecer con suficiente precisión un perfil con la etnia, sexo y edad del sujeto.

Ya existía tecnología capaz de estimar estos dos factores, pero el componente étnico es una novedad propia de la IA Speech2Face.

La tecnología es capaz de distinguir edad, sexo y etnia

Detalles imperfectos de la IA

A pesar de lo innovador del sistema, su precisión no termina de ser 100% perfecta.

Por ejemplo, Speech2Face genera imágenes de hombres blancos al oír asiáticos hablando inglés. Y aún así, cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.

De hecho, el departamento de investigadores del MIT detalló que el objetivo no es crear una imagen que replique el rostro de una persona, sino generar una que "recupere los rasgos físicos" característicos que están correlacionados.

El objetivo de la IA es generar una representación lo más exacta posible del rostro

"Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje", añadieron los expertos.

En cuanto a los usos, se estima que una empleabilidad comercial de este algoritmo sería la posibilidad de generar una imagen representativa del interlocutor cuando estemos manteniendo una llamada telefónica o escuchando la radio.

Temas relacionados