Transcrire le texte en audio grâce à la Cloud Text-to-Speech API

Ce service cloud permet de convertir du texte en audio haute fidélité ‘parlé de manière humaine’. La Cloud Text-to-Speech API utilise des modèles de machine learning pré-entraînés pour synthétiser du texte dans plus de 180 voix et plus de 30 langues et variantes.

Cas d’usage de Cloud Speech API

Les applications possibles sont incroyablement variées :

Les usages sont pratiquement infinis, surtout quand on réalise que la Cloud Text-to-Speech API s’améliore avec le temps. Plus elle est utilisée, plus elle prend en charge de nouveaux concepts et plus elle devient précise. Ce principe, lié à la nature du machine learning, est le même pour toutes les autres API.

Fonctionnalités de la Cloud Text-to-Speech API

La Cloud Text-to-Speech API supporte plus de 180 voix et plus de 30 langues et variantes qui semblent naturelles grâce à l’accès exclusif aux voix WaveNet de DeepMind.

La Cloud Text-to-Speech API permet de travailler sur du texte brut mais également sur des documents balisés SSML qui permettent d’indiquer des informations comme les pauses ou la prononciation.

La Cloud Text-to-Speech API permet de personnaliser le débit de parole, d’ajuster la hauteur de voix, de contrôler le volume de sortie, d’optimiser le fichier de sortie par rapport au type de haut parleur utilisé.

La Cloud Text-to-Speech API permet d’exporter les résultats dans de nombreux formats audio tels que les formats mp3, Ogg Opus et Linear16.

Liens externes