Cloud Dataflow : analyse de flux et de fichiers de données

← Stack Big Data et Analytics de Google

Lancé en bêta ouverte en 2015, Cloud Dataflow est un service de traitement de données entièrement géré, compatible avec l’exécution de pipelines par flux (stream) et par lots (batchs). Les travaux pour donner naissance à cet outil sont également à l’origine du modèle de programmation Apache Beam.

Concrètement, en tant que développeur, on écrit le code de traitement des données et… c’est tout ! Le service va gérer toute l’infrastructure nécessaire pour réaliser l’opération. Plus la peine de se soucier de l’optimisation des performances ou de la gestion des ressources, la GCP s’occupe de rassembler les données et d’optimiser le tout.

Ce service, qui s’intègre parfaitement avec d’autres modules de la GCP comme Cloud Storage, Cloud Pub/Sub, Cloud Firestore, Cloud Bigtable, et BigQuery, a des applications dans tous les domaines et peut gérer des cas d’usage complexes. Détection de fraude en finance, analyse de données en provenance de millions d’objets connectés, etc.

Utilisation de Cloud Dataflow dans une chaîne ETL

Intégration de Cloud Dataflow et Google BigQuery
Intégration de Cloud Storage et Cloud Dataflow
Est-il possible d’utiliser Cloud Dataflow avec Apache Kafka ?

Différence entre Spark et Dataflow

Certaines des fonctionnalités offertes par Google Cloud Dataflow ne sont pas disponibles dans Spark :

Dataflow est entièrement managé
Dataflow propose une seule API pour les traintements batch et les traitements streaming
Dataflow propose des hautes performances avec de la scalabilité automatique

Cloud Dataflow : analyse de flux et de fichiers de données

Utilisation de Cloud Dataflow dans une chaîne ETL

Différence entre Spark et Dataflow

A lire sur le même thème