1. Apprendre
  2. /
  3. Cours
  4. /
  5. ETL et ELT en Python

Connected

Exercice

Validation des données chargées dans une base de données Postgres

Dans cet exercice, vous allez enfin créer un pipeline de données de bout en bout. Ce pipeline extraira les résultats de tests scolaires à partir d'un fichier JSON et transformera les données pour supprimer les lignes contenant des notes manquantes. En plus de cela, chaque école sera classée par ville où elle se trouve, selon son total des points. Enfin, l'ensemble de données transformé sera stocké dans une base de données Postgres.

Pour vous donner un coup de pouce, les fonctions extract() et transform() ont été créées et utilisées comme ci-dessous. De plus, pandas a été importé sous le nom pd. Bonne réussite!

# Extraire et nettoyer les résultats de tests.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Instructions 1/2

undefined XP
    1
    2
  • Mettez à jour la fonction load() pour écrire le DataFrame clean_data dans la table scores_by_city de la base de données schools.
  • Si des données existent déjà dans la table scores_by_city, assurez-vous de les remplacer par les données mises à jour.