OmniHuman-1 no está accesible todavía para el público, pero su desarrollo puso en el centro del debate los riesgos asociados a los deepfakes
10.02.2025 • 14:45hs • Desarrollo
Desarrollo
¿Cómo funciona OmniHuman-1, la IA de ByteDance que genera videos hiperrealistas?
ByteDance, la compañía propietaria de TikTok, lanzó OmniHuman-1, un avanzado modelo de inteligencia artificial (IA) que permite crear videos de cuerpo completo con un nivel de realismo impresionante, a partir de una única imagen.
Así funciona la nueva IA de ByteDance
El sistema utiliza una foto y un archivo multimedia de referencia, para imitar con precisión los movimientos, los gestos y la voz de una persona.
OmniHuman-1 funciona a partir de un modelo basado en transformadores y diversas técnicas de difusión, diseñadas especialmente para facilitar la fusión de sonido con imágenes y suavizar la transición entre ambos hasta lograr un resultado natural.
El modelo OmniHuman-1 fue entrenado durante más de 19.000 horas mediante una técnica conocida como "entrenamiento mixto de condicionamiento de movimiento multimodal", que combina distinto tipo de materiales y niveles de detalle.
Según los ingenieros de ByteDance detrás del proyecto, este enfoque es tan avanzado que puede trabajar aún cuando los datos sean escasos, aprovechando al máximo la información disponible.
"OmniHuman-1 supera significativamente los métodos existentes, generando videos humanos extremadamente realistas basados en entradas de señales débiles, especialmente audio", explican.
Y añaden: "Admite entradas de imágenes de cualquier relación de aspecto, ya sean retratos, imágenes de medio cuerpo o de cuerpo completo, lo que brinda resultados más realistas y de alta calidad en varios escenarios".
Esta inteligencia artificial puede crear videos realistas de una persona en movimiento a partir de una foto y un archivo de audio, más allá de que la imagen sea de cuerpo entero, medio cuerpo o un retrato.
La clave del nivel de realismo que pueden alcanzar esta réplicas, tienen que ver con detalles esenciales como la iluminación, las texturas y la fluidez del movimiento.
OmniHuman-1 puede tomar como referencia clips en movimiento o videos estáticos, y reproducir acciones específicas, así como brindar movilidad a distintas partes del cuerpo.
IA: el nuevo modelo de ByteDance enciende el debate en torno a los deepfakes
Los ingenieros reconocen que el modelo todavía tiene algunas limitaciones. Por ejemplo, si se parte de una imagen de baja calidad, saldrán videos con algunas fallas como movimientos poco naturales o rasgos borrosos.
Debido a su alto costo, asociado la inversión para su desarrollo, OmniHuman-1 no está disponible para el público, aunque los avances logrados por ByteDance encienden una alarma sobre el riesgo de los deepfakes y su impacto en la sociedad.
Según Home Security Heroes, la cantidad de videos falsificados mediante inteligencia artificial aumentó un 550% entre 2019 y 2023, mientras que los casos de suplantación de identidad crecieron un el escalofriante porcentaje de 3.000% en el mismo periodo.
En ese sentido, la falta de regulaciones y el rápido desarrollo de esta tecnología agravaron el problema, afectando distintos ámbitos sociales y económicos.
Es por eso que los expertos destacan la importancia de que las plataformas digitales implementen medidas de control. TikTok, por ejemplo, introdujo la tecnología Content Credentials para añadir metadatos a los contenidos generados con IA, permitiendo a los usuarios identificar su origen.