Spaltenwichtigkeit und Zahlungsausfallvorhersage

Wenn du mit mehreren Trainingssätzen und vielen unterschiedlichen Spaltengruppen arbeitest, ist es wichtig, im Blick zu behalten, welche Spalten relevant sind und welche nicht. Es kann teuer oder zeitaufwendig sein, einen Satz von Spalten zu pflegen, obwohl sie möglicherweise keinen Einfluss auf loan_status haben.

Die X-Daten für diese Übung wurden mit folgendem Code erstellt:

X = cr_loan_prep[['person_income','loan_int_rate',
                  'loan_percent_income','loan_amnt',
                  'person_home_ownership_MORTGAGE','loan_grade_F']]

Trainiere ein XGBClassifier()-Modell auf diesen Daten und prüfe die Spaltenwichtigkeit, um zu sehen, wie gut jede einzelne Spalte loan_status vorhersagt.

Der Datensatz cr_loan_pret sowie X_train und y_train wurden im Workspace geladen.

Diese Übung ist Teil des Kurses

<Kurs>Kreditrisikomodellierung in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle und trainiere ein XGBClassifier()-Modell mit den Trainingssätzen X_train und y_train und speichere es als clf_gbt.
Gib die Spaltenwichtigkeiten für die Spalten in clf_gbt aus, indem du .get_booster() und .get_score() verwendest.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))

# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))

Code bearbeiten und ausführen