Trainings- und Testdaten erstellen

Du hast gerade LogisticRegression()-Modelle mit unterschiedlichen Spalten trainiert.

Du weißt, dass die Daten in Trainings- und Testdaten aufgeteilt werden sollten. Mit test_train_split() werden beide gleichzeitig erstellt. Die Trainingsdaten werden zum Trainieren verwendet, die Testdaten zur Auswertung. Ohne Auswertung des Modells kannst du nicht beurteilen, wie gut es auf neue Kreditdaten performt.

Zusätzlich zum intercept_, einem Attribut des Modells, besitzen LogisticRegression()-Modelle auch das Attribut .coef_. Das zeigt, wie wichtig jede Trainingsspalte für die Vorhersage der Ausfallwahrscheinlichkeit ist.

Der Datensatz cr_loan_clean ist bereits im Workspace geladen.

Diese Übung ist Teil des Kurses

Kreditrisikomodellierung in Python

Kurs anzeigen

Anleitung zur Übung

Erstelle den Datensatz X mit Zinssatz, Beschäftigungsdauer und Einkommen. Erstelle den y-Satz mit dem Kreditstatus.
Verwende train_test_split(), um aus X und y Trainings- und Testdaten zu erzeugen.
Erstelle und trainiere ein LogisticRegression()-Modell und speichere es als clf_logistic.
Gib die Koeffizienten des Modells mit .coef_ aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]

# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)

# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Print the models coefficients
print(____.coef_)

Code bearbeiten und ausführen