Undersampling der Trainingsdaten

Jetzt bist du dran: Führe das Undersampling des Trainingssatzes selbst mit ein paar Zeilen Pandas-Code durch. Sobald das Undersampling fertig ist, kannst du die Wertehäufigkeiten für loan_status prüfen, um das Ergebnis zu verifizieren.

X_y_train, count_nondefault und count_default sind bereits im Workspace geladen. Sie wurden mit folgendem Code erzeugt:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Die .value_counts() für die ursprünglichen Trainingsdaten wird automatisch ausgegeben.

Diese Übung ist Teil des Kurses

<Kurs>Kreditrisikomodellierung in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erzeuge Datensätze der Non-Defaults und Defaults und speichere sie als nondefaults bzw. defaults.
Ziehe eine Stichprobe der nondefaults in der gleichen Anzahl wie count_default und speichere sie als nondefaults_under.
Verknüpfe nondefaults und defaults mit .concat() und speichere das Ergebnis als X_y_train_under.
Gib die .value_counts() des Loan-Status für den neuen Datensatz aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Code bearbeiten und ausführen