Undersampling der Trainingsdaten
Jetzt bist du dran: Führe das Undersampling des Trainingssatzes selbst mit ein paar Zeilen Pandas-Code durch. Sobald das Undersampling fertig ist, kannst du die Wertehäufigkeiten für loan_status prüfen, um das Ergebnis zu verifizieren.
X_y_train, count_nondefault und count_default sind bereits im Workspace geladen. Sie wurden mit folgendem Code erzeugt:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
Die .value_counts() für die ursprünglichen Trainingsdaten wird automatisch ausgegeben.
Diese Übung ist Teil des Kurses
Kreditrisikomodellierung in Python
Anleitung zur Übung
- Erzeuge Datensätze der Non-Defaults und Defaults und speichere sie als
nondefaultsbzw.defaults. - Ziehe eine Stichprobe der
nondefaultsin der gleichen Anzahl wiecount_defaultund speichere sie alsnondefaults_under. - Verknüpfe
nondefaultsunddefaultsmit.concat()und speichere das Ergebnis alsX_y_train_under. - Gib die
.value_counts()des Loan-Status für den neuen Datensatz aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())