Lancé en bêta ouverte en 2015, Cloud Dataflow est un service de traitement de données entièrement géré, compatible avec l’exécution de pipelines par flux (stream) et par lots (batchs). Les travaux pour donner naissance à cet outil sont également à l’origine du modèle de programmation Apache Beam.
Concrètement, en tant que développeur, on écrit le code de traitement des données et… c’est tout ! Le service va gérer toute l’infrastructure nécessaire pour réaliser l’opération. Plus la peine de se soucier de l’optimisation des performances ou de la gestion des ressources, la GCP s’occupe de rassembler les données et d’optimiser le tout.
Ce service, qui s’intègre parfaitement avec d’autres modules de la GCP comme Cloud Storage, Cloud Pub/Sub, Cloud Firestore, Cloud Bigtable, et BigQuery, a des applications dans tous les domaines et peut gérer des cas d’usage complexes. Détection de fraude en finance, analyse de données en provenance de millions d’objets connectés, etc.
Utilisation de Cloud Dataflow dans une chaîne ETL
- Intégration de Cloud Dataflow et Google BigQuery
- Intégration de Cloud Storage et Cloud Dataflow
- Est-il possible d’utiliser Cloud Dataflow avec Apache Kafka ?
Différence entre Spark et Dataflow
Certaines des fonctionnalités offertes par Google Cloud Dataflow ne sont pas disponibles dans Spark :
- Dataflow est entièrement managé
- Dataflow propose une seule API pour les traintements batch et les traitements streaming
- Dataflow propose des hautes performances avec de la scalabilité automatique