Différences entre BigQuery, solution serverless, et Redshift, solution managée
Beaucoup de personnes cherchent à comparer Google BigQuery et Amazon Redshift. Les produits sont pourtant fondamentalement différents. BigQuery est un datawarehouse en mode Serverless, alors que Amazon Redshift est une base de données PostgreSQL managée par Amazon Web Services.
Aperçu de la base de données Redshift
Une base de données Redshift est un Datawarehouse Cloud managé par Amazon. Redshift a été lancé en 2013. La plateforme fournit un système de stockage qui permet aux entreprises de stocker de gros volumes de données dans des clusters. Redshift est compatible SQL.
Redshift est une sorte de clone de PostgreSQL. Il y a cependant une différence très importante entre RedShift et PostgreSQL, c’est que Redshift a un stockage orienté colonne alors que PostgreSQL a un stockage orienté ligne. Ceci change complètement les performances entre les deux bases sur les SELECT
. Cette différence a aussi de gros impacts sur la manière d’optimiser les performances des bases. Un exemple, les données dans RedShift ne sont pas indexées.
Chaque Datawarehouse Redshift est entièrement managé, de sorte que les tâches administrations telles que la configuration, les sauvegardes et la sécurité sont entièrement automatisées.
Aperçu de BigQuery
Selon Googke, “BigQuery est un datawarehouse serverless, hautement évolutif et peu couteux, avec un moteur de BI en mémoire et des outils de machine learning intégrés”.
BigQuery est une version externalisée d’un outil interne, Dremel, un système de requête pour l’analyse de données développé par Google en 2006. BigQuery a été lancé 2012. Dremel utilise des requêtes de type SQL, tandis que BigQuery utilise un SQL conforme à l’ANSI.
Dimensionnement du cluster
- Amazon Redshift demande de choisir un certain nombre de CPU, RAM, HD, etc.
- BigQuery s’en fiche. Utilisez BigQuery quand vous voulez, sans provisionner de machines.
Coûts horaires sans utilisation
- Amazon Redshift vous demandera de payer à l’heure pour chacun des serveurs, même si vous ne faites rien
- Lorsque BigQuery est inactif, BigQuery ne vous facture que 0,02 $ par mois par Go stocké, c’est tout.
Vitesse des requêtes
- Les performances de Amazon Redshift sont limitées par le nombre de CPU provisionnés
- BigQuery apporte de manière transparente autant de ressources que nécessaire pour exécuter votre requête en quelques secondes.
Indexation
- Amazon Redshift vous demandera d’indexer vos données selon certains critères, et vous ne pourrez exécuter des requêtes rapides qu’en fonction de cet index.
- BigQuery n’a pas d’index. Chaque opération est rapide.
Partage et distribution des données
- Amazon Redshift exige que vous réfléchissiez à la façon de distribuer les données au sein de vos serveurs pour maintenir les performances
- Le partage de données avec BigQuery est très simple à mettre en oeuvre et n’impacte pas les performances
Ingestion live de données
- Difficile avec Amazon Redshift, car il faut mettre à jour les index.
- BigQuery gère facilement l’acquisition de 100 000 lignes par seconde et par table.
Dimensionnement du cluster
- Si vous avez plus de données, ou plus d’utilisateurs simultanés, le redimmensionnement du cluster sera douloureux avec Amazon Redshift.
- BigQuery s’adapte automatiquement
Article avec des inputs de Felipe Hoffa. Si vous vous intéressez à BigQuery, c’est la personne qu’il faut suivre sur Twitter.
Autres liens
- Différences entre BigQuery et Bigtable
- Différences entre BigQuery et Snowflake
- Différences entre BigQuery et AWS Athena
- Différences entre BigQuery et Hadoop
- Différences entre Bigquery et Elasticsearch
- Différences entre Bigquery et Google Cloud SQL
- Différences entre BigQuery et Spark
- Différences entre BigQuery et PostgresSQL
- Différences entre BigQuery et Spanner