BigData et Google Cloud Platform

Google est né d’un océan de données

Si Google Cloud est si puissant aujourd’hui, c’est parce que Google a rencontré ce problème de BigData avant tout le monde et dans des proportions uniques. La mise en place de Google Search, de Gmail, l’explosion de YouTube et de tous les outils associés à ces services a provoqué la création d’une infrastructure BigData hors normes, qui maintenant est accessible à tous.

Google innove en permance sur le tratement de la donnée

La mission de Google est simple et tient en ces quelques mots : organiser l’information disponible mondialement, pour la rendre utile et disponible à tous. Mais ces mots impliquent des challenges jamais rencontrés avant par d’autres acteurs de l’industrie. Ces difficultés sont maintenant devenues des avantages compétitifs qui permettent à Google de proposer une offre toujours en avance sur son temps. Google publie régulièrement des articles scientifiques sur les technologies BigData inventées.

GCP hérite de l’expertise de Google sur la donnée

Ces difficultés sont maintenant devenues des avantages compétitifs qui permettent à Google de proposer une offre toujours en avance sur son temps. Alors que la concurrence travaille encore sur des solutions basées sur des idées que Google a développées il y a des années (MapReduce en 2004 par exemple), ses ingénieurs ont mis au point de nouveaux outils qui permettent de se concentrer sur l’analyse des données et de ne plus perdre son temps avec leur manipulation et la gestion de l’infrastructure.

BigQuery

Google BigQuery est un datawarehouse cloud entièrement managé. Il peut être alimenté par des pétaoctets de données et exécuter des requêtes SQL. Cet outil est largement utilisé pour l’analyse des données. Il est compatible avec des solutions de BI telles que Tableau, Looker, Power BI ou encore Google Data Studio.

Cloud Dataflow

Google Cloud Dataflow est un service de traitement des données Cloud. Dataflow permet de traiter des flux de données en temps réel ainsi que d’exécuter des traitements batch. Dataflow est basé sur Apache Beam. Il permet aux développeurs de mettre en place des pipelines de traitement pour l’intégration, la préparation et l’analyse de grands volumes de données.

Cloud Dataproc

Cloud Dataproc est un service managé de cluster Spark et Hadoop. L’automatisation de Cloud Dataproc permet de créer des clusters de traitement en quelques dizaines de secondes.

Data Catalog

Google Data Catalog est une solution qui aide les entreprises à gérer les métadonnées d’une plate-forme de données. Data Catalog permet aux utilisateurs de récupérer les informations d’une base de données par noms de colonnes ou de tables.

Data Fusion

Data Fusion est un service d’intégration de données Cloud entièrement managé. Data Fusion permet de construire et de gérer efficacement les pipelines de données ETL. Il est doté d’une interface graphique intuitive.

Cloud Pub/Sub

Cloud Pub/Sub est un service de messagerie temps réel entièrement managé. Cloud Pub/Sub permet d’ingérer les données issues d’événements, de capteurs, de journaux, d’analyses…