Microsoft desarrolla VASA-1 que crea caras parlantes realistas a partir de una foto y audio en tiempo real

Los investigadores de Microsoft han desarrollado un sistema llamado VASA-1 que puede generar caras parlantes expresivas y realistas para personajes virtuales en tiempo real, impulsado únicamente por entrada de audio.

La tecnología permite la creación de avatares digitales creíbles con expresiones faciales naturales, movimientos de cabeza y matices emocionales, según la publicación del blog de Microsoft Research Asia.

El marco VASA (Visual Affective Skills Avatar) utiliza una única imagen estática y un clip de audio de voz para producir una salida de vídeo altamente realista de la cara de un personaje virtual que habla el audio proporcionado.

No sólo puede sincronizar con precisión los movimientos de los labios con el audio, sino que también captura una amplia gama de sutilezas faciales y movimientos naturales de la cabeza que contribuyen a una apariencia auténtica y realista.

En el núcleo de VASA-1 se encuentran modelos que generan dinámicas faciales, movimientos de cabeza y expresiones dentro de un espacio latente facial especializado desarrollado utilizando datos de video reales.

Esto permite que el sistema controle y edite varios atributos del avatar generado de forma independiente, como la apariencia, la postura de la cabeza en 3D y los movimientos faciales.

VASA-1 también ofrece controlabilidad sobre el proceso de generación, lo que permite a los usuarios ajustar factores como la dirección de la mirada, la distancia de la cabeza y las compensaciones de emociones como condiciones de entrada opcionales.

El sistema exhibe fuertes capacidades de generalización, capaz de manejar entradas de fotos y audio mucho más allá de su distribución de entrenamiento, como fotografías artísticas, audio de canto y habla en idiomas distintos del inglés.

Desde el punto de vista de la eficiencia, VASA-1 es capaz de generar fotogramas de vídeo con resolución de 512×512 a hasta 45 fotogramas por segundo en modo fuera de línea y unos impresionantes 40 fotogramas por segundo en modo de transmisión en línea con solo 170 ms de latencia, ejecutándose a una velocidad única. -Fin de la GPU.

Los investigadores creen que aporta un potencial positivo en varios ámbitos, como mejorar la accesibilidad educativa, brindar compañía o apoyo terapéutico y ayudar a quienes tienen dificultades de comunicación.

Si bien Microsoft reconoce el potencial de uso indebido, como hacerse pasar por personas reales, la empresa se opone a la creación de contenido engañoso o dañino y está interesada en aplicar la tecnología para avanzar en los esfuerzos de detección de falsificaciones.

La empresa de tecnología tampoco tiene planes de lanzar una demostración, API o producto en línea que utilice VASA-1 hasta que pueda garantizar el uso responsable de la tecnología y el cumplimiento de las regulaciones adecuadas.

Fuente: The Sun

Microsoft desarrolla VASA-1 que crea caras parlantes realistas a partir de una foto y audio en tiempo real

Submit a Comment Cancelar la respuesta

Categorias

IAB Perú