Définir un DAG

Dans les exercices précédents, vous avez appliqué les trois étapes du processus ETL :

Extract : extraire la table PostgreSQL film dans pandas.
Transform : scinder la colonne rental_rate du DataFrame film.
Load : charger le DataFrame film dans un entrepôt de données PostgreSQL.

Les fonctions extract_film_to_pandas(), transform_rental_rate() et load_dataframe_to_film() sont définies dans votre espace de travail. Dans cet exercice, vous allez ajouter une tâche ETL à un DAG existant. Le DAG à étendre et la tâche à attendre sont définis dans votre espace de travail sous les noms dag et wait_for_table respectivement.

Cet exercice fait partie du cours

<cours>Introduction au data engineering</cours>

Instructions de l’exercice

Complétez la fonction etl() en utilisant les fonctions décrites dans l’énoncé de l’exercice.
Assurez-vous que etl_task utilise l’appelable etl.
Configurez la bonne dépendance amont. Notez que etl_task doit attendre la fin de wait_for_table.
Le code fourni contient une exécution d’exemple. Cela signifie que le pipeline ETL s’exécute lorsque vous lancez le code.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define the ETL function
def etl():
    film_df = ____()
    film_df = ____(____)
    ____(____)

# Define the ETL task using PythonOperator
etl_task = PythonOperator(task_id='etl_film',
                          python_callable=____,
                          dag=dag)

# Set the upstream to wait_for_table and sample run etl()
etl_task.____(wait_for_table)
etl()

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Introduction au data engineering</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce premier chapitre, vous découvrirez le monde du data engineering ! Explorez les différences entre un data engineer et un data scientist, obtenez une vue d’ensemble des divers outils utilisés par les data engineers et approfondissez votre compréhension du rôle du cloud dans le data engineering.

Exercise 1: Qu’est-ce que l’ingénierie des données ?Exercise 2: Tâches de l’ingénieur·e data Exercise 3: Ingénieur·e data ou data scientist ?Exercise 4: Problèmes d’ingénierie des données Exercise 5: Les outils du data engineer Exercise 6: Types de bases de données Exercise 7: Traitement des tâches Exercise 8: Outils d’ordonnancement Exercise 9: Fournisseurs cloud Exercise 10: Pourquoi l’informatique en nuage ?Exercise 11: Les grands acteurs du cloud computing Exercise 12: Services cloud

Maintenant que vous connaissez les principales différences entre un data engineer et un data scientist, préparez-vous à explorer la boîte à outils du data engineer ! Apprenez en détail les différents types de bases de données utilisées, en quoi le calcul parallèle est une pierre angulaire de l’arsenal du data engineer, et comment planifier des traitements de données à l’aide de frameworks de planification.

Exercise 1: Bases de données Exercise 2: SQL vs NoSQL Exercise 3: Le schéma de base de données Exercise 4: Joindre des relations Exercise 5: Diagramme de schéma en étoile Exercise 6: Qu’est-ce que le calcul parallèle Exercise 7: Pourquoi le calcul parallèle ?Exercise 8: D’une tâche à des sous-tâches Exercise 9: Utiliser un DataFrame Exercise 10: Cadres de calcul parallèle Exercise 11: Spark, Hadoop et Hive Exercise 12: Un groupby en PySpark Exercise 13: Exécuter des fichiers PySpark Exercise 14: Frameworks d’ordonnancement de workflows Exercise 15: Airflow, Luigi et cron Exercise 16: DAGs Airflow

Après avoir découvert la boîte à outils des data engineers, il est temps de passer au cœur de leur flux de travail ! Avec l’ETL, vous apprendrez à extraire des données brutes depuis diverses sources, à transformer ces données en insights exploitables, puis à les charger dans des bases de données pertinentes, prêtes à l’usage.

Exercise 1: Extraction Exercise 2: Sources de données Exercise 3: Récupérer depuis une API Exercise 4: Lire depuis une base de données Exercise 5: Transformer Exercise 6: Découper le prix de location Exercise 7: Préparer les transformations Exercise 8: Jointure avec les évaluations Exercise 9: Chargement Exercise 10: OLAP ou OLTP Exercise 11: Écrire dans un fichier Exercise 12: Charger dans Postgres Exercise 13: Rassembler tous les éléments Exercise 14: Définir un DAG

Exercice actuel

Exercise 15: Configuration d’Airflow Exercise 16: Interpréter le DAG

Consolidez tout ce que vous avez appris dans les trois chapitres précédents en réalisant un cas d’usage réel issu de DataCamp ! Vous exécuterez et planifierez un processus ETL qui transforme des évaluations de cours brutes en recommandations de cours exploitables pour les apprenant·e·s de DataCamp.

Exercise 1: Notes des cours Exercise 2: Explorer le schéma Exercise 3: Interroger la table Exercise 4: Note moyenne par cours Exercise 5: Des évaluations aux recommandations Exercise 6: Filtrer les données corrompues Exercise 7: Utiliser la transformation de recommandation Exercise 8: Planifier des tâches quotidiennes Exercise 9: La table cible Exercise 10: Définir le DAG Exercise 11: Activer le DAG Exercise 12: Interroger les recommandations Exercise 13: Félicitations