Sous-échantillonnage des données d’entraînement
À vous de sous-échantillonner l’ensemble d’entraînement avec quelques lignes de code Pandas. Une fois le sous-échantillonnage terminé, vous pourrez vérifier le résultat avec les fréquences de loan_status.
X_y_train, count_nondefault et count_default sont déjà chargés dans l’espace de travail. Ils ont été créés avec le code suivant :
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
Le .value_counts() des données d’entraînement d’origine s’affichera automatiquement.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Créez des jeux de données pour les non-défauts et les défauts, stockés dans
nondefaultsetdefaults. - Échantillonnez
nondefaultsau même effectif quecount_defaultet stockez le résultat dansnondefaults_under. - Concaténez
nondefaultsetdefaultsavec.concat()et stockez le résultat dansX_y_train_under. - Affichez le
.value_counts()de l’état du prêt pour le nouveau jeu de données.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())