Trainings- und Testdaten erstellen
Du hast gerade LogisticRegression()-Modelle mit unterschiedlichen Spalten trainiert.
Du weißt, dass die Daten in Trainings- und Testdaten aufgeteilt werden sollten. Mit test_train_split() werden beide gleichzeitig erstellt. Die Trainingsdaten werden zum Trainieren verwendet, die Testdaten zur Auswertung. Ohne Auswertung des Modells kannst du nicht beurteilen, wie gut es auf neue Kreditdaten performt.
Zusätzlich zum intercept_, einem Attribut des Modells, besitzen LogisticRegression()-Modelle auch das Attribut .coef_. Das zeigt, wie wichtig jede Trainingsspalte für die Vorhersage der Ausfallwahrscheinlichkeit ist.
Der Datensatz cr_loan_clean ist bereits im Workspace geladen.
Diese Übung ist Teil des Kurses
Kreditrisikomodellierung in Python
Anleitung zur Übung
- Erstelle den Datensatz
Xmit Zinssatz, Beschäftigungsdauer und Einkommen. Erstelle deny-Satz mit dem Kreditstatus. - Verwende
train_test_split(), um ausXundyTrainings- und Testdaten zu erzeugen. - Erstelle und trainiere ein
LogisticRegression()-Modell und speichere es alsclf_logistic. - Gib die Koeffizienten des Modells mit
.coef_aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]
# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)
# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Print the models coefficients
print(____.coef_)