CommencerCommencer gratuitement

Filtrer les données corrompues

Une étape récurrente de la phase de transformation consiste à nettoyer des données incomplètes. Dans cet exercice, vous allez examiner des données de cours, au format suivant :

course_id title description programming_language
1 Some Course r

Vous allez inspecter ce DataFrame et vérifier qu’il n’y a aucune valeur manquante à l’aide des méthodes .isnull().sum() de pandas sur un DataFrame. Vous constaterez que la colonne programming_language comporte des valeurs manquantes.

Vous allez donc compléter la fonction transform_fill_programming_language() en utilisant la méthode .fillna() pour remplacer les valeurs manquantes.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Instructions

  • Affichez le nombre de valeurs manquantes dans course_data.
  • Les valeurs manquantes de programming_language doivent être remplacées par la langue "R".
  • Affichez à nouveau le nombre de valeurs manquantes par colonne, cette fois pour transformed.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Modifier et exécuter le code