Validation des données chargées dans une base de données Postgres
Dans cet exercice, vous allez enfin pouvoir construire un pipeline de données de bout en bout. Ce pipeline extrait les résultats des examens scolaires d'un fichier JSON et transforme les données pour supprimer les lignes contenant des résultats manquants. En outre, chacun d'entre eux sera classé en fonction de la ville dans laquelle il se trouve, sur la base de son score total. Enfin, l'ensemble des données transformées sera stocké dans une base de données Postgres.
Pour vous donner un avant-goût, les fonctions extract()
et transform()
ont été construites et utilisées comme indiqué ci-dessous. En outre, pandas
a été importé en tant que pd
. Bonne chance !
# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)
Cet exercice fait partie du cours
ETL et ELT en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def load(clean_data, con_engine):
# Store the data in the schools database
clean_data.____(
name="scores_by_city",
con=con_engine,
____="____", # Make sure to replace existing data
index=True,
index_label="school_id"
)