CommencerCommencer gratuitement

Remplacer les données de crédit manquantes

Vous devez maintenant vérifier la présence de valeurs manquantes. Si vous trouvez des données manquantes dans loan_status, vous ne pourrez pas utiliser ces données pour prédire la probabilité de défaut, car vous ne sauriez pas si le prêt a fait défaut ou non. Des données manquantes dans person_emp_length seraient moins problématiques, mais provoqueraient tout de même des erreurs d’entraînement.

Vérifiez donc les valeurs manquantes dans la colonne person_emp_length et remplacez-les par la médiane.

Le jeu de données cr_loan a déjà été chargé dans l’espace de travail.

Cet exercice fait partie du cours

Modélisation du risque de crédit en Python

Afficher le cours

Instructions

  • Affichez un tableau des noms de colonnes qui contiennent des valeurs manquantes à l’aide de .isnull().
  • Affichez les cinq premières lignes du jeu de données où person_emp_length est manquant.
  • Remplacez les valeurs manquantes par la médiane de toutes les durées d’emploi à l’aide de .fillna().
  • Créez un histogramme de la colonne person_emp_length pour vérifier la distribution.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Modifier et exécuter le code