Détecter les valeurs aberrantes avec des tables croisées
Vous devez maintenant trouver et supprimer les valeurs aberrantes que vous soupçonnez dans les données. Pour cet exercice, vous pouvez utiliser des tables croisées et des fonctions d’agrégation.
Examinez la colonne person_emp_length. Vous avez déjà utilisé l’argument aggfunc = 'mean' pour voir la moyenne d’une colonne numérique, mais pour détecter des valeurs aberrantes, vous pouvez utiliser d’autres fonctions comme min et max.
Il est peu probable qu’une personne ait une ancienneté inférieure à 0 ou supérieure à 60. Vous pouvez utiliser des tables croisées pour vérifier les données et voir s’il existe des cas de ce type.
Le jeu de données cr_loan a été chargé dans l’espace de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the cross table for loan status, home ownership, and the max employment length
print(pd.____(cr_loan[____],cr_loan[____],
values=cr_loan[____], aggfunc=____))