Qu’est-ce que Hadoop ?

Apache Hadoop est un framework qui permet le traitement distribué de grands ensembles de données sur des clusters d’ordinateurs.

Il est conçu pour passer d’un seul serveur à des milliers de machines, chacune offrant un calcul et un stockage local.

Google BigQuery est serverless, Hadoop ne l’est pas

Google BigQuery est serverless, Hadoop ne l’est pas. Pour Hadoop, que ce soit dans le Cloud ou sur site, vous êtes responsable de provisionner votre capacité capacité de calcul en ajoutant des nœuds/machines supplémentaires.

Pour BigQuery, Google est responsable de la mise à l’échelle. Il n’y a pas à se préoccuper de l’infrastructure. Cela rend BigQuery beaucoup plus facile à gérer.

Google BigQuery est une base de données, Hadoop est un plateforme de stockage et de calcul

Google BigQuery est une base de données orienté requêtage. Hadoop est une plate-forme de stockage et de calcul.

Avec BigQuery, vous importez des données dans la base de données BigQuery. Les données sont ensuite accessibles sous forme de tables.

Avec Hadoop, vous ajoutez des fichiers à HDFS. Pour requêter dans votre cluster Hadoop, il faut utiliser un moteur SQL comme Hive, Impala, Spark ou Presto. Hadoop peut être utilisé comme une base de données mais c’est fondamentalement un framework de traitement sur un système de fichiers distribués.

Autres liens