Transcrire l’audio en texte grâce à la Cloud Speech-to-Text API

Ce service cloud permet de convertir de l’audio en texte. La Cloud Speech-to-Text API utilise des modèles de machine learning pré-entraînés et peut reconnaître plus de 120 langues et variantes. Cloud Speech-to-Text API peut traiter des sons pré-enregistrés ou travailler sur des flux audio en temps réel.

Cas d’usage de Cloud Speech-to-Text API

Les applications possibles sont incroyablement variées :

Les usages sont pratiquement infinis, surtout quand on réalise que la Cloud Speech-to-Text API s’améliore avec le temps. Plus elle est utilisée, plus elle prend en charge de nouveaux concepts et plus elle devient précise. Ce principe, lié à la nature du machine learning, est le même pour toutes les autres API.

Fonctionnalités de la Cloud Speech-to-Text API

La Cloud Speech-to-Text API reconnait plus de 120 langues et variantes. La langue parlée peut être automatiquement identifiée, même si plusieurs langues différentes sont parlées dans le document audio.

La Cloud Speech-to-Text API est capable de transcrire précisément les noms propres tels que les noms et les lieux, et de formatter correctement les éléments tels que les dates, numéros de téléphone.

La Cloud Speech-to-Text API est capable de retourner un flux de texte en temps réel, correspondant au texte reconnu dans un flux audio, par exemple pendant qu’un utilisateur parle.

La Cloud Speech-to-Text API est également capable reconnaître le texte stocké dans des fichiers audio.

Une sélection de modèles pré-construits, adaptés à des uses cases spécifiques, est disponible. Il est ainsi possible d’utiliser des modèles adaptés aux commandes vocales, à la recherche vocale, aux appels téléphoniques, à la compréhension de l’audio dans des flux vidéos, ou à des flux audio haute fidélité.

Liens externes