Filtrer les données corrompues
Une étape récurrente de la phase de transformation consiste à nettoyer des données incomplètes. Dans cet exercice, vous allez examiner des données de cours, au format suivant :
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Vous allez inspecter ce DataFrame et vérifier qu’il n’y a aucune valeur manquante à l’aide des méthodes .isnull().sum() de pandas sur un DataFrame. Vous constaterez que la colonne programming_language comporte des valeurs manquantes.
Vous allez donc compléter la fonction transform_fill_programming_language() en utilisant la méthode .fillna() pour remplacer les valeurs manquantes.
Cet exercice fait partie du cours
Introduction au data engineering
Instructions
- Affichez le nombre de valeurs manquantes dans
course_data. - Les valeurs manquantes de
programming_languagedoivent être remplacées par la langue "R". - Affichez à nouveau le nombre de valeurs manquantes par colonne, cette fois pour
transformed.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)