One-Hot-Encoding von Kreditdaten
Jetzt ist es an der Zeit, die nicht-numerischen Spalten so vorzubereiten, dass du sie deinem LogisticRegression()-Modell hinzufügen kannst.
Sobald die neuen Spalten per One-Hot-Encoding erstellt sind, kannst du sie mit den numerischen Spalten zusammenfügen, um einen neuen DataFrame zu erstellen. Dieser wird im weiteren Kursverlauf verwendet, um die Ausfallwahrscheinlichkeit vorherzusagen.
Denk daran: Nur die nicht-numerischen Spalten werden per One-Hot-Encoding umgewandelt. Würdest du das mit den numerischen Spalten tun, entstünde ein enorm breiter Datensatz!
Die Kreditdaten cr_loan_clean wurden bereits in den Workspace geladen.
Diese Übung ist Teil des Kurses
Kreditrisikomodellierung in Python
Anleitung zur Übung
- Erstelle einen Datensatz für alle numerischen Spalten namens
cred_numund einen für die nicht-numerischen Spalten namenscred_str. - Wende One-Hot-Encoding auf
cred_stran, um einen neuen Datensatzcred_str_onehotzu erstellen. - Vereine
cred_nummit den neuen One-Hot-encodierten Daten und speichere das Ergebnis alscr_loan_prep. - Gib die Spalten des neuen Datensatzes aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)