scikit-learns KFold()

Du hast gerade den Code einer Kollegin bzw. eines Kollegen ausgeführt, der ein Random-Forest-Modell erstellt und eine Out-of-Sample-Genauigkeit berechnet. Dabei ist dir aufgefallen, dass im Code kein random_state gesetzt wurde und die von dir gefundenen Fehler völlig andere sind als die, die deine Kollegin bzw. dein Kollege berichtet hat.

Um eine bessere Schätzung dafür zu bekommen, wie genau dieses Random-Forest-Modell auf neuen Daten sein wird, hast du entschieden, Indizes für eine KFold-Cross-Validation zu erzeugen.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Anleitung zur Übung

Rufe KFold() auf, um die Daten mit fünf Splits, Shuffle und einem random_state von 1111 zu teilen.
Verwende die Methode split() von KFold auf X.
Gib die Anzahl der Indizes in der Trainings- und in der Validierungsindizes-Liste aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bevor wir Modelle validieren können, müssen wir verstehen, wie man sie erstellt und damit arbeitet. Dieses Kapitel führt in Regressions- und Klassifikationsmodelle mit scikit-learn ein. Auf dieser Grundlage für den Modellaufbau bauen die weiteren Kapitel auf.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

In diesem Kapitel geht es um die Grundlagen der Modellvalidierung. Vom Aufteilen der Daten in Trainings-, Validierungs- und Testdatensätze bis hin zum Verständnis des Bias-Variance-Trade-offs legen wir die Basis für die in Kapitel drei geübten Techniken K-Fold und Leave-One-Out.

Exercise 1: Train-, Test- und Validierungsdatensätze erstellen Exercise 2: Erstelle ein Holdout-Set Exercise 3: Erstelle zwei Holdout-Sets Exercise 4: Warum Holdout-Sets verwenden Exercise 5: Genauigkeitsmetriken: Regressionsmodelle Exercise 6: Mittlerer absoluter Fehler Exercise 7: Mittlerer quadratischer Fehler Exercise 8: Leistung auf Datenteilmengen Exercise 9: Klassifikationsmetriken Exercise 10: Confusion-Matrizen Exercise 11: Noch einmal: Confusion-Matrizen Exercise 12: Precision vs. Recall Exercise 13: Der Bias-Varianz-Trade-off Exercise 14: Fehler durch Under-/Overfitting Exercise 15: Underfitte ich?

Holdout-Sets sind ein guter Einstieg in die Modellvalidierung. Ein einzelnes Train-/Test-Set reicht jedoch oft nicht aus. Cross-Validation gilt als Goldstandard zur Validierung der Modellleistung und wird fast immer beim Tuning von Modell-Hyperparametern eingesetzt. Dieses Kapitel konzentriert sich auf die Durchführung von Cross-Validation zur Validierung der Modellperformance.

Exercise 1: Die Tücken von Holdout-Sets Exercise 2: Zwei Stichproben Exercise 3: Mögliche Probleme Exercise 4: Cross-Validation Exercise 5: scikit-learns KFold()

Aktuelle Übung

Exercise 6: KFold-Indizes verwenden Exercise 7: sklearns cross_val_score()Exercise 8: Methoden in scikit-learn Exercise 9: cross_val_score() implementieren Exercise 10: Leave-One-Out-Cross-Validation (LOOCV)Exercise 11: Wann LOOCV verwenden Exercise 12: Leave-one-out-Cross-Validation

Die ersten drei Kapitel haben sich auf Validierungstechniken konzentriert. In Kapitel 4 wenden wir diese Techniken – insbesondere Cross-Validation – an und lernen dabei Hyperparameter-Tuning kennen. Denn Modellvalidierung macht Tuning erst möglich und hilft uns, das insgesamt beste Modell auszuwählen.

Exercise 1: Einführung in das Hyperparameter-Tuning Exercise 2: Hyperparameter erstellen Exercise 3: Ein Modell mit Wertebereichen ausführen Exercise 4: RandomizedSearchCV Exercise 5: Vorbereitung für RandomizedSearch Exercise 6: RandomizedSearchCV implementieren Exercise 7: Dein finales Modell auswählen Exercise 8: Beste Klassifikationsgenauigkeit Exercise 9: Das beste Präzisionsmodell auswählen Exercise 10: Kurs abgeschlossen!