Transcrire l’audio en texte grâce à la Cloud Speech-to-Text API
Ce service cloud permet de convertir de l’audio en texte. La Cloud Speech-to-Text API utilise des modèles de machine learning pré-entraînés et peut reconnaître plus de 120 langues et variantes. Cloud Speech-to-Text API peut traiter des sons pré-enregistrés ou travailler sur des flux audio en temps réel.
Cas d’usage de Cloud Speech-to-Text API
Les applications possibles sont incroyablement variées :
- commandes vocales, par exemple pour activer et piloter des smart devices,
- recherche vocale,
- transcription de son et de documents audio, par exemple pour transcrire des appels téléphonique ou des réunions.
Les usages sont pratiquement infinis, surtout quand on réalise que la Cloud Speech-to-Text API s’améliore avec le temps. Plus elle est utilisée, plus elle prend en charge de nouveaux concepts et plus elle devient précise. Ce principe, lié à la nature du machine learning, est le même pour toutes les autres API.
Fonctionnalités de la Cloud Speech-to-Text API
La Cloud Speech-to-Text API reconnait plus de 120 langues et variantes. La langue parlée peut être automatiquement identifiée, même si plusieurs langues différentes sont parlées dans le document audio.
La Cloud Speech-to-Text API est capable de transcrire précisément les noms propres tels que les noms et les lieux, et de formatter correctement les éléments tels que les dates, numéros de téléphone.
La Cloud Speech-to-Text API est capable de retourner un flux de texte en temps réel, correspondant au texte reconnu dans un flux audio, par exemple pendant qu’un utilisateur parle.
La Cloud Speech-to-Text API est également capable reconnaître le texte stocké dans des fichiers audio.
Une sélection de modèles pré-construits, adaptés à des uses cases spécifiques, est disponible. Il est ainsi possible d’utiliser des modèles adaptés aux commandes vocales, à la recherche vocale, aux appels téléphoniques, à la compréhension de l’audio dans des flux vidéos, ou à des flux audio haute fidélité.