LoslegenKostenlos loslegen

One-Hot-Encoding von Kreditdaten

Jetzt ist es an der Zeit, die nicht-numerischen Spalten so vorzubereiten, dass du sie deinem LogisticRegression()-Modell hinzufügen kannst.

Sobald die neuen Spalten per One-Hot-Encoding erstellt sind, kannst du sie mit den numerischen Spalten zusammenfügen, um einen neuen DataFrame zu erstellen. Dieser wird im weiteren Kursverlauf verwendet, um die Ausfallwahrscheinlichkeit vorherzusagen.

Denk daran: Nur die nicht-numerischen Spalten werden per One-Hot-Encoding umgewandelt. Würdest du das mit den numerischen Spalten tun, entstünde ein enorm breiter Datensatz!

Die Kreditdaten cr_loan_clean wurden bereits in den Workspace geladen.

Diese Übung ist Teil des Kurses

Kreditrisikomodellierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen Datensatz für alle numerischen Spalten namens cred_num und einen für die nicht-numerischen Spalten namens cred_str.
  • Wende One-Hot-Encoding auf cred_str an, um einen neuen Datensatz cred_str_onehot zu erstellen.
  • Vereine cred_num mit den neuen One-Hot-encodierten Daten und speichere das Ergebnis als cr_loan_prep.
  • Gib die Spalten des neuen Datensatzes aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Code bearbeiten und ausführen