Encodage one-hot des données de crédit
Il est temps de préparer les colonnes non numériques afin de pouvoir les ajouter à votre modèle LogisticRegression().
Une fois les nouvelles colonnes créées via l’encodage one-hot, vous pouvez les concaténer avec les colonnes numériques pour créer un nouveau DataFrame, qui sera utilisé pour le reste du cours afin de prédire la probabilité de défaut.
N’oubliez pas de n’appliquer l’encodage one-hot qu’aux colonnes non numériques. Le faire sur les colonnes numériques produirait un jeu de données extrêmement large !
Les données de crédit cr_loan_clean ont déjà été chargées dans l’environnement de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Créez un jeu de données pour toutes les colonnes numériques appelé
cred_numet un autre pour les colonnes non numériques appelécred_str. - Utilisez l’encodage one-hot sur
cred_strpour créer un nouveau jeu de données appelécred_str_onehot. - Réalisez l’union de
cred_numavec les nouvelles données encodées en one-hot et enregistrez le résultat souscr_loan_prep. - Affichez les colonnes du nouveau jeu de données.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)