One-Hot-Encoding von Kreditdaten

Jetzt ist es an der Zeit, die nicht-numerischen Spalten so vorzubereiten, dass du sie deinem LogisticRegression()-Modell hinzufügen kannst.

Sobald die neuen Spalten per One-Hot-Encoding erstellt sind, kannst du sie mit den numerischen Spalten zusammenfügen, um einen neuen DataFrame zu erstellen. Dieser wird im weiteren Kursverlauf verwendet, um die Ausfallwahrscheinlichkeit vorherzusagen.

Denk daran: Nur die nicht-numerischen Spalten werden per One-Hot-Encoding umgewandelt. Würdest du das mit den numerischen Spalten tun, entstünde ein enorm breiter Datensatz!

Die Kreditdaten cr_loan_clean wurden bereits in den Workspace geladen.

Diese Übung ist Teil des Kurses

<Kurs>Kreditrisikomodellierung in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle einen Datensatz für alle numerischen Spalten namens cred_num und einen für die nicht-numerischen Spalten namens cred_str.
Wende One-Hot-Encoding auf cred_str an, um einen neuen Datensatz cred_str_onehot zu erstellen.
Vereine cred_num mit den neuen One-Hot-encodierten Daten und speichere das Ergebnis als cr_loan_prep.
Gib die Spalten des neuen Datensatzes aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)

Code bearbeiten und ausführen