BigQuery, un datawarehouse serverless
Lancé en 2010, BigQuery est un service de Data Warehouse serverless totalement managé qui repose sur la technologie Dremel de Google (entre autres).
BigQuery peut digérer un téraoctet de données en quelques secondes et peut avaler des pétaoctets à traiter sans problème. Ces données peuvent être chargées par exemple depuis Cloud Storage, Cloud Firestore ou encore envoyées en flux continu vers BigQuery.
BigQuery est le compagnon idéal des Data Analysts. Le service a de nombreuses applications. Il simplifie et accélère les usages dédiés aux datawarehouses, notamment en permettant de facilement faire du cross data, d’analyser et explorer des données, de remplacer des batchs de traitement de données et de générer des reporting.
Les spécificités de BigQuery
Lors de son invention, Google a complètement repensé ce que pouvait être un datawarehouse. BigQuery a donc beaucoup de spécificités. Par exemple, BigQuery n’a pas d’index, c’est une base de données orientées colonnes, il permet un grand nombre de mises à jour par seconde,…
BigQuery n’est pas le seul Datawarehouse Cloud
Il existe plusieurs datawarehouse cloud. Certains sont simplement des bases de données classiques customisées pour le cloud. D’autres sont plutôt des solutions de type NoSQL. Voici une page rassemblant les comparaisons des solutions les plus utilisées : Redshift, Elastic, Spanner,…
BigQuery et le Machine Learning
Afin de démocratiser l’usage du machine Google a rajouté des fonctionnalités de machine learning dans BigQuery. Ceci permet de faire des prévisions basiques sans être Data Scientist :
- BigQuery ML permet de créer et d’exécuter des modèles de machine learning dans BigQuery en utilisant des requêtes SQL standard.
- Table ML permetde créer et de déployer automatiquement des modèles de machines learning.
Les tarifs de BigQuery
Combien coute une requêtes BigQuery, quel est le prix du stockage ? Est-il plus intéressant d’inmporter un fichier ou de streamer de la donnée dans BigQuery ? Autant de questions qu’il faut se poser sur la tarification de BigQuery.
BigQuery est rapide, très rapide
Les cloud providers modernes proposent trois types de puissances : de la puissance de calcul, de la puissance de stockage et de la puissance de communication. Pour faire un data warehouse cloud rapide, il est important d’être capable d’utiliser les possibilités offertes par la scalabité horizontale.
Améliorer les performances de BigQuery
- Toujours préférer les tables partionnées (partionned tables)
- Réduire le nombre de données traitées, utiliser les fonctions de filtrage au plus tôt
- Eviter les “ORDER BY”
- Éviter les fonctions javascript (user-defined functions)
- Utiliser BigQuery BI
Liens Intéressants
- Questions Fréquentes sur BigQuery
- Les avantages de BigQuery
- Pourquoi BigQuery est-il si rapide ?
- Comment BigQuery stocke-t-il les données ?
- Dremel : un moteur SQL massivement parallèle