CommencerCommencer gratuitement

Encodage one-hot des données de crédit

Il est temps de préparer les colonnes non numériques afin de pouvoir les ajouter à votre modèle LogisticRegression().

Une fois les nouvelles colonnes créées via l’encodage one-hot, vous pouvez les concaténer avec les colonnes numériques pour créer un nouveau DataFrame, qui sera utilisé pour le reste du cours afin de prédire la probabilité de défaut.

N’oubliez pas de n’appliquer l’encodage one-hot qu’aux colonnes non numériques. Le faire sur les colonnes numériques produirait un jeu de données extrêmement large !

Les données de crédit cr_loan_clean ont déjà été chargées dans l’environnement de travail.

Cet exercice fait partie du cours

Modélisation du risque de crédit en Python

Afficher le cours

Instructions

  • Créez un jeu de données pour toutes les colonnes numériques appelé cred_num et un autre pour les colonnes non numériques appelé cred_str.
  • Utilisez l’encodage one-hot sur cred_str pour créer un nouveau jeu de données appelé cred_str_onehot.
  • Réalisez l’union de cred_num avec les nouvelles données encodées en one-hot et enregistrez le résultat sous cr_loan_prep.
  • Affichez les colonnes du nouveau jeu de données.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Modifier et exécuter le code