Validation des données chargées dans une base de données Postgres

Dans cet exercice, vous allez enfin pouvoir construire un pipeline de données de bout en bout. Ce pipeline extrait les résultats des tests scolaires d'un fichier JSON et transforme les données pour supprimer les lignes contenant des résultats manquants. En outre, chacun d'entre eux sera classé en fonction de la ville dans laquelle il se trouve, sur la base de son score total. Enfin, l'ensemble des données transformées sera stocké dans une base de données Postgres.

Pour vous donner un avant-goût, les fonctions extract() et transform() ont été construites et utilisées comme indiqué ci-dessous. En outre, pandas a été importé en tant que pd. Bonne chance !

# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

def load(clean_data, con_engine):
	# Store the data in the schools database
    clean_data.____(
    	name="scores_by_city",
		con=con_engine,
		____="____",  # Make sure to replace existing data
		index=True,
		index_label="school_id"
    )

Modifier et exécuter le code