Filtrer les données corrompues
L'une des étapes récurrentes de la phase de transformation consistera à nettoyer certaines données incomplètes. Dans cet exercice, vous allez examiner les données de cours, qui ont le format suivant :
course_id | title | description | programming_language |
---|---|---|---|
1 | Certains cours | r |
Vous allez inspecter ce DataFrame et vous assurer qu'il n'y a pas de valeurs manquantes en utilisant les méthodes .isnull().sum()
du DataFrame pandas
. Vous constaterez que la colonne programming_language
comporte des valeurs manquantes.
Ainsi, vous compléterez la fonction transform_fill_programming_language()
en utilisant la méthode .fillna()
pour combler les valeurs manquantes.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Instructions
- Imprimez le nombre de valeurs manquantes sur
course_data
. - Les valeurs manquantes du site
programming_language
devraient être la langue "R". - Imprimez à nouveau le nombre de valeurs manquantes par colonne, cette fois pour
transformed
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)