Cloud Vision API

← APIs d'Intelligence Artificielle Google Cloud Platform

Révéler le contenu des images grâce à la Cloud Vision API

Ce service cloud permet à une application d’analyser et de comprendre le contenu d’une image, sans avoir à développer quoi que ce soit. La Cloud Vision API utilise des modèles de machine learning pré-entraînés et peut classer une image selon des milliers de catégories, (moto, chat, Tour Eiffel, etc.), mais aussi de détecter des éléments spécifiques (visages ou texte par exemple), des émotions, et bien plus.

Cas d’usage de Cloud Vision API

Les applications possibles sont incroyablement variées :

détecter et extraire du texte d’une image,
classer des visages (détection de célébrités par exemple),
détecter logos et labels (protection de contenus, quantification, etc.),
bloquer le téléchargement des contenus inappropriés (violence, racisme)…

Les usages sont pratiquement infinis, surtout quand on réalise que la Cloud Vision API s’améliore avec le temps. Plus elle est utilisée, plus elle prend en charge de nouveaux concepts et plus elle devient précise. Ce principe, lié à la nature du machine learning, est le même pour toutes les autres API.

Détection de labels et d’entités

La Cloud Vision API permet de détecter les labels et entités présentes dans d’une image et d’extraire des informations les concernants. Les labels permettent d’identifier des objets, des lieux, des produits, des animaux et bien d’autres concepts généraux. A partir d’une vaste librairie de labels et d’entités, l’API retournera pour chaque labels, entre autres, une description et un score de confiance.

Détection de la position d’objets

La Cloud Vision API utilise la localisation d’objet pour détecter la position de plusieurs objets, significatifs et moins importants, dans une image. Pour chaque objet elle fournit, entre autres, les labels, les coordonnées des sommets du polygone englobant l’objet (bounding box), une description textuelle, et un score de confiance.

Détection de visages

La Cloud Vision API est capable de localiser de multiples visages dans une image. Pour chaque visage détecté elle fournit notamment les coordonnées des sommets du polygone englobant l’objet (bounding box), les coordonées des emplacements faciaux tels que les yeux, le nez, la bouche, ainsi que les scores de confiance associés.

La Cloud Vision API est également capable de fournir la probabilité pour les émotions telles que la joie, la tristesse, la colère, la surprise.

La Cloud Vision API est également capable de fournir des propriétés générales sur de l’image, par exemple est-ce que l’image est sous-exposée ou floue.

Détection de landmarks

La Cloud Vision API est capable de détecter les landmarks c’est à dire les les structures naturelles ou crées par l’homme. Celà correspond par exemple à des entités géographiques telles que les bâtiments et les lieux. Pour chaque landmark, la Cloud Vision API fournit le nom du landmark, les coordonnées des sommets du polygone englobant l’objet (bounding box), un score de confiance. La Cloud Vision API fournit également les coordonées géographique de l’entité détectée

Détection de logos

La Cloud Vision API est capable de détecter les logos populaires dans une image. Pour chaque logo, la Cloud Vision API fournit le nom de l’entité identifiée, les coordonnées des sommets du polygone englobant le logo (bounding box), un score de confiance.

Détection de texte

La Cloud Vision API est capable de détecter et de reconnaître le texte présent dans une image. Pour celà des techniques de reconnaîssance optique de caractères (OCR) sont utilisées.

La Cloud Vision API est capable de détecter les zones de texte éparses dans une image, comme le texte sur les panneaux de signalisation urbains. Dans ce cas, elle retournera le texte extrait, les mots individuels et les coordonnées des sommets du polygone englobant le texte (bounding box).

La détection de texte fonctionnne sur des images mais également sur des documents PDF ou TIFF stockés dans Cloud Storage. Dans le cas de documents, la Cloud Vision API est capable de détecter:

les zones de texte denses, dans ce cas, elle retournera, entre autres, des informations sur la page, les paragraphes, les mots,
les zones de texte manuscrits, comme le texte d’une note écrite à la main.

Détection des propriétés générales d’une image

La Cloud Vision API est capable de détecter les propriétés générales d’une image, telles que les couleurs dominantes.

Recommandations de recadrage

La Cloud Vision API est capable de fournir des recommandations de recadrage d’une image, sous la forme des coordonnées des sommets du polygone de recadrage (bounding box), du ratio par rapport à l’image originale et d’un indice de confiance.

Entités et pages web

La Cloud Vision API est capable de retourner un ensemble d’informations issues du web, en rapport avec l’image. Parmi ces informations il y a notamment:

la détection d’entité web,
des images correspondantes entièrement, partiellement, ou visuellement similaires présentes sur le web,
des pages web avec des images correspondantes,
des labels issus du web associés à cette image ainsi que les liens de recherche associés.

Détection de contenu explicite

La Cloud Vision API fourni une fonctionnalité de type Safe Search permettant d’obtenir la probabilité qu’une image appartienne à différentes catégories telles que: adulte, parodique, médicale, violente, raciale.

Cloud Vision API - GCP