¡ Translatotron es un modelo de traducción de voz a voz creado por el equipo de IA de Google que puede convertir el habla de un idioma a otro conservando la voz del hablante!
¿Qué tiene de especial?
Los modelos anteriores solían tener tres componentes.
- Conversión de voz a texto
- Traducir el texto
- Genere voz a partir del texto traducido usando Text To Speech Engine
La principal desventaja de esos modelos es que el error en cualquiera de las fases puede conducir a algún resultado no deseado.
Además, Text to Speech Engines tiene opciones de voz limitadas disponibles como Microsoft Ana, Siri, etc.
Translatetotron traduce voz a voz directamente sin utilizar ninguna representación de texto intermedia. Por eso, es capaz de retener la voz del hablante original.
Ventajas y usos
- La mayor ventaja de Translatotron es la prevención de las características vocales del hablante.
- En el futuro, podría usarse para el doblaje automático de películas: con la voz de los actores originales.
- Los tutoriales en video se pueden hacer accesibles en idiomas nativos.
Desafíos
- La calidad de la traducción es inferior al modelo de cascada de traducción de voz a texto -> texto a voz. Con suerte, la calidad podría mejorar en el futuro.
- Será más fácil falsificar la voz de otras personas. Por lo tanto, los sistemas de autenticación basados en voz deben mejorar.