Remplacement des valeurs manquantes
Une autre façon de traiter les valeurs manquantes est de les remplacer toutes par la même valeur. Pour les variables numériques, il est possible de remplacer les valeurs par 0, c'est ce que vous ferez ici. Cependant, remplacer des valeurs manquantes, c’est faire des hypothèses sur la signification d'une valeur manquante. Dans ce cas, vous supposerez qu'un nombre de ventes manquant signifie qu'aucune vente de ce type d'avocat n'a été réalisée cette semaine-là.
Dans cet exercice, vous verrez comment le remplacement des valeurs manquantes peut affecter la distribution d'une variable à l'aide d'histogrammes. Vous pouvez tracer des histogrammes pour plusieurs variables à la fois comme suit :
dogs[["height_cm", "weight_kg"]].hist()
pandas
a été importé en tant que pd
et matplotlib.pyplot
a été importé en tant que plt
. L'ensemble de données avocados_2016
est disponible.
Cet exercice fait partie du cours
Manipulation de données avec pandas
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# List the columns with missing values
cols_with_missing = ["small_sold", "large_sold", "xl_sold"]
# Create histograms showing the distributions cols_with_missing
avocados_2016[____].____
# Show the plot
____