Identifier les valeurs manquantes
La première étape avant l’imputation des valeurs manquantes consiste à vérifier s’il en existe dans nos données et, le cas échéant, de quels groupes elles proviennent.
Pour les mêmes données restaurant_data que vous avez vues dans la leçon, un employé a effacé par erreur les pourboires laissés sur 65 tables. La question est de savoir combien d’entrées manquantes proviennent de tables où des fumeurs étaient présents, par rapport aux tables sans fumeurs.
Votre tâche est de regrouper les deux jeux de données selon la variable smoker, de compter le nombre de valeurs présentes, puis de calculer la différence.
Nous imputons des pourboires afin que vous puissiez pratiquer les concepts vus dans la leçon. D’un point de vue éthique, vous ne devriez pas imputer des données financières dans la vie réelle, car cela pourrait être considéré comme une fraude.
Cet exercice fait partie du cours
Écrire du code efficace avec pandas
Instructions
- Regroupez les données selon le statut fumeur.
- Calculez le nombre de valeurs non manquantes dans chaque groupe.
- Affichez le nombre de valeurs manquantes dans chaque groupe.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Group both objects according to smoke condition
restaurant_nan_grouped = restaurant_nan.____(____)
# Store the number of present values
restaurant_nan_nval = restaurant_nan_grouped['tip'].____()
# Print the group-wise missing entries
print(restaurant_nan_grouped['total_bill'].count() - ____)