Sous-échantillonnage des données d’entraînement

À vous de sous-échantillonner l’ensemble d’entraînement avec quelques lignes de code Pandas. Une fois le sous-échantillonnage terminé, vous pourrez vérifier le résultat avec les fréquences de loan_status.

X_y_train, count_nondefault et count_default sont déjà chargés dans l’espace de travail. Ils ont été créés avec le code suivant :

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Le .value_counts() des données d’entraînement d’origine s’affichera automatiquement.

Cet exercice fait partie du cours

<cours>Modélisation du risque de crédit en Python</cours>

Voir le cours

Instructions de l’exercice

Créez des jeux de données pour les non-défauts et les défauts, stockés dans nondefaults et defaults.
Échantillonnez nondefaults au même effectif que count_default et stockez le résultat dans nondefaults_under.
Concaténez nondefaults et defaults avec .concat() et stockez le résultat dans X_y_train_under.
Affichez le .value_counts() de l’état du prêt pour le nouveau jeu de données.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Modifier et exécuter le code