CommencerCommencer gratuitement

Filtrer les données corrompues

L'une des étapes récurrentes de la phase de transformation consistera à nettoyer certaines données incomplètes. Dans cet exercice, vous allez examiner les données de cours, qui ont le format suivant :

course_id title description programming_language
1 Certains cours r

Vous allez inspecter ce DataFrame et vous assurer qu'il n'y a pas de valeurs manquantes en utilisant les méthodes .isnull().sum() du DataFrame pandas. Vous constaterez que la colonne programming_language comporte des valeurs manquantes.

Ainsi, vous compléterez la fonction transform_fill_programming_language() en utilisant la méthode .fillna() pour combler les valeurs manquantes.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Instructions

  • Imprimez le nombre de valeurs manquantes sur course_data.
  • Les valeurs manquantes du site programming_language devraient être la langue "R".
  • Imprimez à nouveau le nombre de valeurs manquantes par colonne, cette fois pour transformed.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Modifier et exécuter le code