- Google BigQuery est souvent décrit comme une base de données permettant d’analyser des téraoctets de données en quelques secondes.
- Hadoop est souvent présenté sous la forme d’un logiciel OpenSource qui permet de faire du calcul évolutif et distribué.
Qu’est-ce que Hadoop ?
Apache Hadoop est un framework qui permet le traitement distribué de grands ensembles de données sur des clusters d’ordinateurs.
Il est conçu pour passer d’un seul serveur à des milliers de machines, chacune offrant un calcul et un stockage local.
Google BigQuery est serverless, Hadoop ne l’est pas
Google BigQuery est serverless, Hadoop ne l’est pas. Pour Hadoop, que ce soit dans le Cloud ou sur site, vous êtes responsable de provisionner votre capacité capacité de calcul en ajoutant des nœuds/machines supplémentaires.
Pour BigQuery, Google est responsable de la mise à l’échelle. Il n’y a pas à se préoccuper de l’infrastructure. Cela rend BigQuery beaucoup plus facile à gérer.
Google BigQuery est une base de données, Hadoop est un plateforme de stockage et de calcul
Google BigQuery est une base de données orienté requêtage. Hadoop est une plate-forme de stockage et de calcul.
Avec BigQuery, vous importez des données dans la base de données BigQuery. Les données sont ensuite accessibles sous forme de tables.
Avec Hadoop, vous ajoutez des fichiers à HDFS. Pour requêter dans votre cluster Hadoop, il faut utiliser un moteur SQL comme Hive, Impala, Spark ou Presto. Hadoop peut être utilisé comme une base de données mais c’est fondamentalement un framework de traitement sur un système de fichiers distribués.
Autres liens
- Différences entre BigQuery et Redshift
- Différences entre BigQuery et Bigtable
- Différences entre BigQuery et Snowflake
- Différences entre BigQuery et AWS Athena
- Différences entre Bigquery et Elasticsearch
- Différences entre Bigquery et Google Cloud SQL
- Différences entre BigQuery et Spark
- Différences entre BigQuery et PostgresSQL
- Différences entre BigQuery et Spanner