Filtrer les données corrompues
L'une des étapes récurrentes de la phase de transformation consistera à nettoyer certaines données incomplètes. Dans cet exercice, vous allez examiner les données de cours, qui ont le format suivant :
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Certains cours | r |
Vous allez inspecter ce DataFrame et vous assurer qu'il n'y a pas de valeurs manquantes en utilisant les méthodes .isnull().sum() du DataFrame pandas. Vous constaterez que la colonne programming_language comporte des valeurs manquantes.
Ainsi, vous compléterez la fonction transform_fill_programming_language() en utilisant la méthode .fillna() pour combler les valeurs manquantes.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Instructions
- Imprimez le nombre de valeurs manquantes sur
course_data. - Les valeurs manquantes du site
programming_languagedevraient être la langue "R". - Imprimez à nouveau le nombre de valeurs manquantes par colonne, cette fois pour
transformed.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)