Spark, Hadoop et Hive
Vous avez découvert plusieurs projets open source dans la vidéo précédente : Hadoop, Hive et PySpark. Il est facile de les confondre.
Ils ont quelques points communs : ils sont tous actuellement maintenus par la Apache Software Foundation, et ils ont tous été utilisés pour du traitement massif en parallèle. Saurez-vous repérer les différences ?
Cet exercice fait partie du cours
Introduction au data engineering
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice