LoslegenKostenlos loslegen

Undersampling der Trainingsdaten

Jetzt bist du dran: Führe das Undersampling des Trainingssatzes selbst mit ein paar Zeilen Pandas-Code durch. Sobald das Undersampling fertig ist, kannst du die Wertehäufigkeiten für loan_status prüfen, um das Ergebnis zu verifizieren.

X_y_train, count_nondefault und count_default sind bereits im Workspace geladen. Sie wurden mit folgendem Code erzeugt:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Die .value_counts() für die ursprünglichen Trainingsdaten wird automatisch ausgegeben.

Diese Übung ist Teil des Kurses

Kreditrisikomodellierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Erzeuge Datensätze der Non-Defaults und Defaults und speichere sie als nondefaults bzw. defaults.
  • Ziehe eine Stichprobe der nondefaults in der gleichen Anzahl wie count_default und speichere sie als nondefaults_under.
  • Verknüpfe nondefaults und defaults mit .concat() und speichere das Ergebnis als X_y_train_under.
  • Gib die .value_counts() des Loan-Status für den neuen Datensatz aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())
Code bearbeiten und ausführen