Différences entre BigQuery et Redshift

← Datawarehouse Cloud

Différences entre BigQuery, solution serverless, et Redshift, solution managée

Beaucoup de personnes cherchent à comparer Google BigQuery et Amazon Redshift. Les produits sont pourtant fondamentalement différents. BigQuery est un datawarehouse en mode Serverless, alors que Amazon Redshift est une base de données PostgreSQL managée par Amazon Web Services.

Aperçu de la base de données Redshift

Une base de données Redshift est un Datawarehouse Cloud managé par Amazon. Redshift a été lancé en 2013. La plateforme fournit un système de stockage qui permet aux entreprises de stocker de gros volumes de données dans des clusters. Redshift est compatible SQL.

Redshift est une sorte de clone de PostgreSQL. Il y a cependant une différence très importante entre RedShift et PostgreSQL, c’est que Redshift a un stockage orienté colonne alors que PostgreSQL a un stockage orienté ligne. Ceci change complètement les performances entre les deux bases sur les SELECT. Cette différence a aussi de gros impacts sur la manière d’optimiser les performances des bases. Un exemple, les données dans RedShift ne sont pas indexées.

Chaque Datawarehouse Redshift est entièrement managé, de sorte que les tâches administrations telles que la configuration, les sauvegardes et la sécurité sont entièrement automatisées.

Aperçu de BigQuery

Selon Googke, “BigQuery est un datawarehouse serverless, hautement évolutif et peu couteux, avec un moteur de BI en mémoire et des outils de machine learning intégrés”.

BigQuery est une version externalisée d’un outil interne, Dremel, un système de requête pour l’analyse de données développé par Google en 2006. BigQuery a été lancé 2012. Dremel utilise des requêtes de type SQL, tandis que BigQuery utilise un SQL conforme à l’ANSI.

Dimensionnement du cluster

Amazon Redshift demande de choisir un certain nombre de CPU, RAM, HD, etc.
BigQuery s’en fiche. Utilisez BigQuery quand vous voulez, sans provisionner de machines.

Coûts horaires sans utilisation

Amazon Redshift vous demandera de payer à l’heure pour chacun des serveurs, même si vous ne faites rien
Lorsque BigQuery est inactif, BigQuery ne vous facture que 0,02 $ par mois par Go stocké, c’est tout.

Vitesse des requêtes

Les performances de Amazon Redshift sont limitées par le nombre de CPU provisionnés
BigQuery apporte de manière transparente autant de ressources que nécessaire pour exécuter votre requête en quelques secondes.

Indexation

Amazon Redshift vous demandera d’indexer vos données selon certains critères, et vous ne pourrez exécuter des requêtes rapides qu’en fonction de cet index.
BigQuery n’a pas d’index. Chaque opération est rapide.

Partage et distribution des données

Amazon Redshift exige que vous réfléchissiez à la façon de distribuer les données au sein de vos serveurs pour maintenir les performances
Le partage de données avec BigQuery est très simple à mettre en oeuvre et n’impacte pas les performances

Ingestion live de données

Difficile avec Amazon Redshift, car il faut mettre à jour les index.
BigQuery gère facilement l’acquisition de 100 000 lignes par seconde et par table.

Dimensionnement du cluster

Si vous avez plus de données, ou plus d’utilisateurs simultanés, le redimmensionnement du cluster sera douloureux avec Amazon Redshift.
BigQuery s’adapte automatiquement

Article avec des inputs de Felipe Hoffa. Si vous vous intéressez à BigQuery, c’est la personne qu’il faut suivre sur Twitter.

Autres liens

Différences entre BigQuery et Bigtable
Différences entre BigQuery et Snowflake
Différences entre BigQuery et AWS Athena
Différences entre BigQuery et Hadoop
Différences entre Bigquery et Elasticsearch
Différences entre Bigquery et Google Cloud SQL
Différences entre BigQuery et Spark
Différences entre BigQuery et PostgresSQL
Différences entre BigQuery et Spanner