Cloud Dataproc combine les fonctions d’Apache Hadoop, Apache Spark, Apache Pig et Apache Hive. Son rôle est d’aider ses utilisateurs à traiter, transformer et comprendre de vastes quantités de données le plus facilement possible.

Un rôle proche de celui de Dataflow en mode batch donc, mais basé sur des outils différents, plus faciles à adapter à certaines tâches ou à des projets existants.

Cloud Dataproc permet d’utiliser les outils opensource BigData en mode managé

Cloud Dataproc est basé sur un écosystème open source connu, qui ne nécessite pas d’apprendre de nouveaux outils ou API ni de modifier des projets existants. Comme de nombreux services de la GCP, son rôle est d’affranchir l’utilisateur de la gestion des ressources nécessaires à l’exécution d’une tâche donnée.

Un cluster Cloud Dataproc démarre en 90 secondes

Au lieu de perdre du temps avec l’infrastructure, on peut raisonner en termes de “jobs” sans se soucier des serveurs nécessaires à leur exécution. Nous sommes pratiquement dans la configuration serverless du cloud dont nous parlions en introduction de ce document : un cluster Dataproc est lancé pour chaque job à exécuter.

Ce sentiment est renforcé par des temps de démarrage de VM très rapides (autour d’une minute, 90 secondes maximum) et une tarification à la seconde très avantageuse, quel que soit l’usage.

Dataproc sur Kubernetes

L’idée générale est de permettre l’exécution des jobs Apache Spark sur des clusters Google Kubernetes Engine (GKE).

Avec Anthos qui rend GKE disponible pratiquement n’importe où, cela signifie que les entreprises pourront aussi exécuter Dataproc dans leur propre datacenter.

Cloud Dataproc Spark Jobs on GKE: How to get started

A lire sur le même thème