BigQuery, un datawarehouse serverless

Lancé en 2010, BigQuery est un service de Data Warehouse serverless totalement managé qui repose sur la technologie Dremel de Google (entre autres).

BigQuery peut digérer un téraoctet de données en quelques secondes et peut avaler des pétaoctets à traiter sans problème. Ces données peuvent être chargées par exemple depuis Cloud Storage, Cloud Firestore ou encore envoyées en flux continu vers BigQuery.

BigQuery est le compagnon idéal des Data Analysts. Le service a de nombreuses applications. Il simplifie et accélère les usages dédiés aux datawarehouses, notamment en permettant de facilement faire du cross data, d’analyser et explorer des données, de remplacer des batchs de traitement de données et de générer des reporting.

Les spécificités de BigQuery

Lors de son invention, Google a complètement repensé ce que pouvait être un datawarehouse. BigQuery a donc beaucoup de spécificités. Par exemple, BigQuery n’a pas d’index, c’est une base de données orientées colonnes, il permet un grand nombre de mises à jour par seconde,…

BigQuery n’est pas le seul Datawarehouse Cloud

Il existe plusieurs datawarehouse cloud. Certains sont simplement des bases de données classiques customisées pour le cloud. D’autres sont plutôt des solutions de type NoSQL. Voici une page rassemblant les comparaisons des solutions les plus utilisées : Redshift, Elastic, Spanner,…

BigQuery et le Machine Learning

Afin de démocratiser l’usage du machine Google a rajouté des fonctionnalités de machine learning dans BigQuery. Ceci permet de faire des prévisions basiques sans être Data Scientist :

Les tarifs de BigQuery

Combien coute une requêtes BigQuery, quel est le prix du stockage ? Est-il plus intéressant d’inmporter un fichier ou de streamer de la donnée dans BigQuery ? Autant de questions qu’il faut se poser sur la tarification de BigQuery.

BigQuery est rapide, très rapide

Les cloud providers modernes proposent trois types de puissances : de la puissance de calcul, de la puissance de stockage et de la puissance de communication. Pour faire un data warehouse cloud rapide, il est important d’être capable d’utiliser les possibilités offertes par la scalabité horizontale.

Améliorer les performances de BigQuery

Liens Intéressants