Techniques de rééchantillonnage

Dans le dernier exercice, vous avez vu comment le déséquilibre des classes peut influencer les résultats de votre matrice de confusion. Dans cet exercice, vous allez pratiquer des techniques de rééchantillonnage pour explorer les différents résultats que des styles de rééchantillonnage alternatifs peuvent produire sur un jeu de données présentant un déséquilibre de classes comme loan_data. Avec la fonction resample() de sklearn, faire correspondre le nombre de lignes de la classe majoritaire s’appelle un suréchantillonnage (upsampling), tandis que faire correspondre le nombre de lignes de la classe minoritaire s’appelle un sous-échantillonnage (downsampling).

Vous allez créer une version suréchantillonnée et une version sous-échantillonnée du jeu de données loan_data, y ajuster une régression logistique, puis évaluer vos performances. Les données d’entraînement et leurs étiquettes correspondant à deny sont sous-échantillonnées pour ne contenir que la classe minoritaire, et approve correspond à la classe majoritaire.

Un objet de test issu d’une séparation train/test pour effectuer des prédictions a été enregistré dans l’espace de travail sous le nom X_test pour votre usage dans les exercices.

Cet exercice fait partie du cours

S’entraîner aux questions d’entretien en Machine Learning avec Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])

# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False,  n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])

Modifier et exécuter le code