Un service pour faire labeliser des jeux de données par des humains

Le Data Labeling Service permet de faire appel à des humains pour labeliser de manière précise des jeux de données, qui pourront être ensuite utilisés dans des modèles de Machine Learning.

La précision des modèles de Machine Learning dépend fortement de la qualité des données utilisées pour les entraîner, la labelisation est donc une étape cruciale dans la construction d’un modèle de Machine Learning.

Comment utiliser Data Labeling Services ?

La première étape est de créer les ressources pour les labeliseurs humains.

Trois ressources principales sont requises:

Une fois ces ressources créées, il faut créer une tâche de labelisation. La tâche de labelisation comprend notamment:

La tâche de labelisation sera soumise via une requête de labelisation.

Des humains vont alors annoter les éléments du dataset en fonction des instructions transmises dans la requête de labelisation. C’est une opération de longue durée et son statut pourra être consulté via un appel à l’API datalabeling.

Une fois la labelisation finie, il sera possible d’exporter les datasets bien labelisés et de les utiliser dans les projets de Machine Learning.

Recommandations d’utilisation

Il est recommandé d’utiliser une approche itérative afin de raffiner les instructions jusqu’à ce que les résultats du travail des humains soient au niveau de qualité attendu.

On commencera ainsi par transmettre des petits datasets à partir desquels il sera plus facile d’affiner les instructions pour les labeliseurs humains. Une fois que les instructions sont suffisamment claires et comprises, de plus gros datasets pourront être envoyés.

Si les instructions ne sont pas claires ou si des cas non prévus sont rencontrés, l’utilisateur de Data Labeling Service sera contacté par email et pourra fournir un complément d’information.

Références