Leave-one-out-Cross-Validation

Angenommen, dein Lieblingssüßigkeit ist nicht im Candy-Datensatz enthalten und du willst wissen, wie beliebt sie ist. Bei 5-facher Kreuzvalidierung wird jedes Mal nur auf 80 % der Daten trainiert. Der Candy-Datensatz hat jedoch nur 85 Zeilen, und 20 % der Daten wegzulassen könnte unser Modell schwächen. Mit Leave-one-out-Cross-Validation holen wir aus dem begrenzten Datensatz das Maximum heraus und erhalten die beste Schätzung für die Beliebtheit deiner Lieblingssüßigkeit!

In dieser Übung verwendest du cross_val_score(), um LOOCV durchzuführen.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Anleitung zur Übung

Erstelle einen Scorer mit mean_absolute_error, den cross_val_score() verwenden soll.
Ergänze cross_val_score() so, dass das Modell rfr, der neu definierte mae_scorer und LOOCV verwendet werden.
Gib den Mittelwert und die Standardabweichung von scores mit numpy (als np geladen) aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.metrics import mean_absolute_error, make_scorer

# Create scorer
mae_scorer = ____(____)

rfr = RandomForestRegressor(n_estimators=15, random_state=1111)

# Implement LOOCV
scores = cross_val_score(____, X=X, y=y, cv=____, scoring=____)

# Print the mean and standard deviation
print("The mean of the errors is: %s." % np.____(____))
print("The standard deviation of the errors is: %s." % np.____(____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bevor wir Modelle validieren können, müssen wir verstehen, wie man sie erstellt und damit arbeitet. Dieses Kapitel führt in Regressions- und Klassifikationsmodelle mit scikit-learn ein. Auf dieser Grundlage für den Modellaufbau bauen die weiteren Kapitel auf.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

In diesem Kapitel geht es um die Grundlagen der Modellvalidierung. Vom Aufteilen der Daten in Trainings-, Validierungs- und Testdatensätze bis hin zum Verständnis des Bias-Variance-Trade-offs legen wir die Basis für die in Kapitel drei geübten Techniken K-Fold und Leave-One-Out.

Exercise 1: Train-, Test- und Validierungsdatensätze erstellen Exercise 2: Erstelle ein Holdout-Set Exercise 3: Erstelle zwei Holdout-Sets Exercise 4: Warum Holdout-Sets verwenden Exercise 5: Genauigkeitsmetriken: Regressionsmodelle Exercise 6: Mittlerer absoluter Fehler Exercise 7: Mittlerer quadratischer Fehler Exercise 8: Leistung auf Datenteilmengen Exercise 9: Klassifikationsmetriken Exercise 10: Confusion-Matrizen Exercise 11: Noch einmal: Confusion-Matrizen Exercise 12: Precision vs. Recall Exercise 13: Der Bias-Varianz-Trade-off Exercise 14: Fehler durch Under-/Overfitting Exercise 15: Underfitte ich?

Holdout-Sets sind ein guter Einstieg in die Modellvalidierung. Ein einzelnes Train-/Test-Set reicht jedoch oft nicht aus. Cross-Validation gilt als Goldstandard zur Validierung der Modellleistung und wird fast immer beim Tuning von Modell-Hyperparametern eingesetzt. Dieses Kapitel konzentriert sich auf die Durchführung von Cross-Validation zur Validierung der Modellperformance.

Exercise 1: Die Tücken von Holdout-Sets Exercise 2: Zwei Stichproben Exercise 3: Mögliche Probleme Exercise 4: Cross-Validation Exercise 5: scikit-learns KFold()Exercise 6: KFold-Indizes verwenden Exercise 7: sklearns cross_val_score()Exercise 8: Methoden in scikit-learn Exercise 9: cross_val_score() implementieren Exercise 10: Leave-One-Out-Cross-Validation (LOOCV)Exercise 11: Wann LOOCV verwenden Exercise 12: Leave-one-out-Cross-Validation

Aktuelle Übung

Die ersten drei Kapitel haben sich auf Validierungstechniken konzentriert. In Kapitel 4 wenden wir diese Techniken – insbesondere Cross-Validation – an und lernen dabei Hyperparameter-Tuning kennen. Denn Modellvalidierung macht Tuning erst möglich und hilft uns, das insgesamt beste Modell auszuwählen.

Exercise 1: Einführung in das Hyperparameter-Tuning Exercise 2: Hyperparameter erstellen Exercise 3: Ein Modell mit Wertebereichen ausführen Exercise 4: RandomizedSearchCV Exercise 5: Vorbereitung für RandomizedSearch Exercise 6: RandomizedSearchCV implementieren Exercise 7: Dein finales Modell auswählen Exercise 8: Beste Klassifikationsgenauigkeit Exercise 9: Das beste Präzisionsmodell auswählen Exercise 10: Kurs abgeschlossen!