Lancé en bêta ouverte en 2015, Cloud Dataflow est un service de traitement de données entièrement géré, compatible avec l’exécution de pipelines par flux (stream) et par lots (batchs). Les travaux pour donner naissance à cet outil sont également à l’origine du modèle de programmation Apache Beam.

Concrètement, en tant que développeur, on écrit le code de traitement des données et… c’est tout ! Le service va gérer toute l’infrastructure nécessaire pour réaliser l’opération. Plus la peine de se soucier de l’optimisation des performances ou de la gestion des ressources, la GCP s’occupe de rassembler les données et d’optimiser le tout.

Ce service, qui s’intègre parfaitement avec d’autres modules de la GCP comme Cloud Storage, Cloud Pub/Sub, Cloud Firestore, Cloud Bigtable, et BigQuery, a des applications dans tous les domaines et peut gérer des cas d’usage complexes. Détection de fraude en finance, analyse de données en provenance de millions d’objets connectés, etc.

Utilisation de Cloud Dataflow dans une chaîne ETL

Différence entre Spark et Dataflow

Certaines des fonctionnalités offertes par Google Cloud Dataflow ne sont pas disponibles dans Spark :

A lire sur le même thème