Todo lo que querías saber sobre VALL-E de Microsoft

Todo lo que querías saber sobre VALL-E de Microsoft

Microsoft ha desarrollado VALL-E, un modelo de IA de texto a voz que imita cualquier voz con sólo escuchar una muestra de audio de 3 segundos.

Antes de que sigas leyendo, me gustaría aclarar que VALL-E es diferente de WALL-E. Aunque algunos pronunciaríamos ambas palabras exactamente igual, hay mucha diferencia entre las dos. WALL-E es una película de animación de Disney-Pixar estrenada en 2008, en la que aparecía un simpático robot de inteligencia artificial.

El factor IA es, de hecho, una similitud entre VALL-E & WALL-E.

¿Qué sabemos de VALL-E?

En términos técnicos, Microsoft denomina a VALL-E «Neural Codec Language Model». En un lenguaje más sencillo, VALL-E es un modelo de inteligencia artificial capaz de generar audio a partir de texto e imitar la voz de cualquier muestra de audio. Escuchando una muestra vocal de tan sólo tres segundos, puede imitar cualquier voz. VALL-E aún no es accesible al público en general. No sólo puede adaptarse a la voz, sino también al ambiente y la acústica del espacio. Hay problemas morales con él, a pesar de que puede aplicarse de muchas formas beneficiosas.

Modelos de formación –

Los investigadores afirman haber entrenado a VALL-E con 60.000 horas de hablantes de lengua inglesa, frente a las más de 7.000 personas de la audioteca LibriLight de Meta. La voz del hablante objetivo debe parecerse mucho a la de los datos de entrenamiento para poder ser imitada. De este modo, el Al puede utilizar su «entrenamiento» para intentar imitar la voz del hablante objetivo.

Imitar emociones –

Cabe destacar que el modelo Al puede simular la acústica de la sala, así como el tono emocional del orador, además del tono, la cáscara y la textura. Por lo tanto, VALL-E imitará la voz objetivo como si tuviera una perturbación si la voz objetivo la tiene.

Según el equipo de investigación de Microsoft, «los resultados de los experimentos demuestran que VALL-E se comporta mucho mejor en términos de naturalidad del habla y semejanza del hablante que el sistema TTS de disparo cero más avanzado. Además, descubrimos que VALL-E puede mantener la emoción del hablante y el contexto acústico de la indicación acústica durante la síntesis».

Amenazas.

El modelo Al puede aplicarse a la robótica, la producción de medios y las aplicaciones personalizadas de texto a voz. Sin embargo, si se utiliza de forma inadecuada, podría suponer una amenaza. La empresa advirtió de que el modelo podría utilizarse indebidamente para suplantar o falsear la identificación de la voz, ya que VALL-E podría sintetizar el habla manteniendo la identidad del hablante.

VALL-E podría utilizarse, por ejemplo, para generar llamadas de spam que parezcan legítimas con el fin de estafar a la gente. Los políticos o cualquier persona con una presencia social respetable también son susceptibles de suplantación, como demuestran los bulos. Las amenazas pueden llegar a los usuarios que utilizan aplicaciones que necesitan comandos de voz o contraseñas de voz. Además, los trabajos de los actores de doblaje pueden ser eliminados por VALL-E.

Posición ética –

Además, la empresa incluye una declaración sobre ética que dice: «Los ensayos de este trabajo se han realizado bajo el supuesto de que el usuario del modelo es el hablante objetivo y ha sido aceptado por el hablante.» El protocolo para garantizar que el hablante acepta ejecutar la alteración y el sistema para detectar el habla modificada deben incluirse con los modelos de edición de voz, se afirma, cuando el modelo se generaliza a todos los hablantes.

¿En qué se diferencia VALL-E de DALL-E?

DALL-E es un modelo de aprendizaje automático creado por OpenAI que genera gráficos a partir de descripciones de texto. Se utilizan prompts para describir estas descripciones de texto a imagen. Basta con una descripción de la escena para que el algoritmo produzca imágenes realistas. DALL-E es una técnica de red neuronal que construye imágenes precisas a partir de palabras cortas proporcionadas por el usuario. Aprende el lenguaje a partir de descripciones textuales y de los datos de «aprendizaje» que los usuarios y desarrolladores han aportado a sus conjuntos de datos.

¿Qué opina de VALL-E?

Esperamos que ahora lo sepa todo sobre VALL-E (texto a sonido) en comparación con DALL-E (texto a imagen). No hay una fecha concreta para el acceso y uso de VALL-E por parte del público en general. En cuanto a DALL-E, ya se ha puesto a disposición de todos.

Por favor, háganos saber en los comentarios de abajo si tiene alguna pregunta o recomendación. Estaremos encantados de ofrecerle una solución. Con frecuencia publicamos consejos, trucos y soluciones a problemas comunes relacionados con la tecnología.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *