Suppression des données manquantes
Vous avez remplacé les données manquantes dans person_emp_length, mais dans l’exercice précédent vous avez vu que loan_int_rate comporte aussi des valeurs manquantes.
Comme pour loan_status, la présence de données manquantes dans loan_int_rate compliquera les prédictions.
Comme les taux d’intérêt sont définis par votre entreprise, avoir des données manquantes dans cette colonne est très inhabituel. Il est possible que des problèmes d’ingestion aient introduit des erreurs, mais vous ne pouvez pas en être certain. Pour l’instant, il vaut mieux .drop() ces enregistrements avant d’aller plus loin.
Le jeu de données cr_loan a été chargé dans l’espace de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Affichez le nombre d’enregistrements contenant des données manquantes pour le taux d’intérêt.
- Créez un tableau d’indices des lignes qui contiennent un taux d’intérêt manquant, nommé indices.
- Supprimez les enregistrements avec un taux d’intérêt manquant et enregistrez le résultat dans
cr_loan_clean.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the number of nulls
print(____[____].____().____())
# Store the array on indices
____ = ____[____[____].____].____
# Save the new data without missing data
____ = ____.____(____)