Spark, Hadoop et Hive

Vous avez rencontré un certain nombre de projets open source dans la vidéo précédente. Il y a Hadoop, Hive et PySpark. Il est facile de confondre ces projets.

Ils ont quelques points communs : ils sont tous maintenus par la fondation Apache Software et ils ont tous été utilisés pour le traitement parallèle massif. Pouvez-vous repérer les différences ?

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce premier chapitre, vous découvrirez le monde de l'ingénierie des données ! Explorez les différences entre un ingénieur de données et un scientifique de données, obtenez un aperçu des divers outils que les ingénieurs de données utilisent et élargissez votre compréhension de la façon dont la technologie du cloud joue un rôle dans l'ingénierie des données.

Exercise 1: Qu’est-ce que l’ingénierie des données ?Exercise 2: Tâches de l'ingénieur des données Exercise 3: Ingénieur de données ou scientifique de données ?Exercise 4: Problèmes d'ingénierie des données Exercise 5: Les outils de l'ingénieur des données Exercise 6: Types de bases de données Exercise 7: Tâches de traitement Exercise 8: Outils de programmation Exercise 9: Fournisseurs de cloud Exercise 10: Pourquoi le cloud computing ?Exercise 11: Les grands acteurs de l'informatique en nuage (cloud computing)Exercise 12: Services de cloud computing

Maintenant que vous connaissez les principales différences entre un ingénieur des données et un scientifique des données, préparez-vous à explorer la boîte à outils de l'ingénieur des données ! Découvrez en détail les différents types de bases de données utilisées par les ingénieurs en données, comment l'informatique parallèle est une pierre angulaire de la boîte à outils de l'ingénieur en données et comment planifier les tâches de traitement des données à l'aide de cadres de planification.

Exercise 1: Bases de données Exercise 2: SQL vs NonSQL Exercise 3: Le schéma de la base de données Exercise 4: Adhésion sur les relations Exercise 5: Schéma en étoile Exercise 6: Qu'est-ce que l'informatique parallèle ?Exercise 7: Pourquoi le calcul parallèle ?Exercise 8: De la tâche aux sous-tâches Exercise 9: Utilisation d'un DataFrame Exercise 10: Cadres de calcul parallèle Exercise 11: Spark, Hadoop et Hive

Exercice en cours

Exercise 12: Un groupe PySpark Exercise 13: Exécution des fichiers PySpark Exercise 14: Cadres d'ordonnancement de flux de travail Exercise 15: Airflow, Luigi et cron Exercise 16: Débit d'air DAGs

Après avoir découvert la boîte à outils de l'ingénieur des données, il est temps de passer au pain et au beurre du flux de travail de l'ingénieur des données ! Avec ETL, vous apprendrez à extraire des données brutes de diverses sources, à transformer ces données brutes en informations exploitables et à les charger dans des bases de données pertinentes prêtes à être consommées !

Exercise 1: Extraire Exercise 2: Sources de données Exercise 3: Récupérer à partir d'un API Exercise 4: Lecture d'une base de données Exercise 5: Transformer Exercise 6: Fractionnement du loyer Exercise 7: Se préparer aux transformations Exercise 8: Joindre les notes Exercise 9: Chargement Exercise 10: OLAP ou OLTP Exercise 11: Écrire dans un fichier Exercise 12: Chargement dans Postgres Exercise 13: La mise en place de l'ensemble Exercise 14: Définir un DAG Exercise 15: Réglage du débit d'air Exercise 16: Interprétation de la DAG

Terminez tout ce que vous avez appris dans les trois chapitres précédents en réalisant un cas d'utilisation d'ingénierie des données dans le monde réel à partir de DataCamp ! Vous exécuterez et planifierez un processus ETL qui transforme les données brutes d'évaluation des cours, en recommandations de cours exploitables pour les étudiants de DataCamp !

Exercise 1: Notation des cours Exercise 2: Explorer le schéma Exercise 3: Interroger le tableau Exercise 4: Note moyenne par cours Exercise 5: De l'évaluation à la recommandation Exercise 6: Filtrer les données corrompues Exercise 7: Utiliser la transformation de recommandation Exercise 8: Programmation des tâches quotidiennes Exercise 9: Le tableau cible Exercise 10: Définir le DAG Exercise 11: Activer le DAG Exercise 12: Interroger les recommandations Exercise 13: Félicitations