Feature-Importances

Auch wenn einige Süßigkeiten-Merkmale, wie z. B. Schokolade, extrem beliebt sind, heißt das nicht, dass sie für die Vorhersage im Modell wichtig sind. Nachdem ein Random-Forest-Modell trainiert wurde, kannst du das Modellattribut .feature_importances_ auswerten, um zu sehen, welche Variablen den größten Einfluss hatten. Du kannst prüfen, wie wichtig jede Variable im Modell war, indem du mit enumerate() über das Array der Feature-Importances iterierst.

Falls dir Pythons Funktion enumerate() nicht vertraut ist: Damit kannst du über eine Liste iterieren und gleichzeitig einen automatischen Zähler erzeugen.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Anleitung zur Übung

Iteriere durch die Feature-Importances von rfr.
Gib die Spaltennamen von X_train und den Importance-Score für diese Spalte aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit the model using X and y
rfr.fit(X_train, y_train)

# Print how important each column is to the model
for i, item in enumerate(rfr.____):
      # Use i and item to print out the feature importance of each column
    print("{0:s}: {1:.2f}".format(X_train.columns[____], ____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bevor wir Modelle validieren können, müssen wir verstehen, wie man sie erstellt und damit arbeitet. Dieses Kapitel führt in Regressions- und Klassifikationsmodelle mit scikit-learn ein. Auf dieser Grundlage für den Modellaufbau bauen die weiteren Kapitel auf.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances

Aktuelle Übung

Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

In diesem Kapitel geht es um die Grundlagen der Modellvalidierung. Vom Aufteilen der Daten in Trainings-, Validierungs- und Testdatensätze bis hin zum Verständnis des Bias-Variance-Trade-offs legen wir die Basis für die in Kapitel drei geübten Techniken K-Fold und Leave-One-Out.

Exercise 1: Train-, Test- und Validierungsdatensätze erstellen Exercise 2: Erstelle ein Holdout-Set Exercise 3: Erstelle zwei Holdout-Sets Exercise 4: Warum Holdout-Sets verwenden Exercise 5: Genauigkeitsmetriken: Regressionsmodelle Exercise 6: Mittlerer absoluter Fehler Exercise 7: Mittlerer quadratischer Fehler Exercise 8: Leistung auf Datenteilmengen Exercise 9: Klassifikationsmetriken Exercise 10: Confusion-Matrizen Exercise 11: Noch einmal: Confusion-Matrizen Exercise 12: Precision vs. Recall Exercise 13: Der Bias-Varianz-Trade-off Exercise 14: Fehler durch Under-/Overfitting Exercise 15: Underfitte ich?

Holdout-Sets sind ein guter Einstieg in die Modellvalidierung. Ein einzelnes Train-/Test-Set reicht jedoch oft nicht aus. Cross-Validation gilt als Goldstandard zur Validierung der Modellleistung und wird fast immer beim Tuning von Modell-Hyperparametern eingesetzt. Dieses Kapitel konzentriert sich auf die Durchführung von Cross-Validation zur Validierung der Modellperformance.

Exercise 1: Die Tücken von Holdout-Sets Exercise 2: Zwei Stichproben Exercise 3: Mögliche Probleme Exercise 4: Cross-Validation Exercise 5: scikit-learns KFold()Exercise 6: KFold-Indizes verwenden Exercise 7: sklearns cross_val_score()Exercise 8: Methoden in scikit-learn Exercise 9: cross_val_score() implementieren Exercise 10: Leave-One-Out-Cross-Validation (LOOCV)Exercise 11: Wann LOOCV verwenden Exercise 12: Leave-one-out-Cross-Validation

Die ersten drei Kapitel haben sich auf Validierungstechniken konzentriert. In Kapitel 4 wenden wir diese Techniken – insbesondere Cross-Validation – an und lernen dabei Hyperparameter-Tuning kennen. Denn Modellvalidierung macht Tuning erst möglich und hilft uns, das insgesamt beste Modell auszuwählen.

Exercise 1: Einführung in das Hyperparameter-Tuning Exercise 2: Hyperparameter erstellen Exercise 3: Ein Modell mit Wertebereichen ausführen Exercise 4: RandomizedSearchCV Exercise 5: Vorbereitung für RandomizedSearch Exercise 6: RandomizedSearchCV implementieren Exercise 7: Dein finales Modell auswählen Exercise 8: Beste Klassifikationsgenauigkeit Exercise 9: Das beste Präzisionsmodell auswählen Exercise 10: Kurs abgeschlossen!