cross_val_score() implementieren

Dein Unternehmen hat mehrere neue Süßigkeiten entwickelt, ist sich aber unsicher, ob alle fünf auf den Markt kommen sollen. Um die Beliebtheit dieser neuen Süßigkeiten vorherzusagen, sollst du ein Regressionsmodell mit dem Candy-Datensatz bauen. Denk daran: Die Zielvariable ist der Head-to-Head‑Prozentsatz an Siegen gegen andere Süßigkeiten.

Bevor du verschiedene Regressionsmodelle ausprobierst, führst du Cross-Validation mit einem einfachen Random‑Forest‑Modell durch, um einen Basisfehler zu erhalten, mit dem du zukünftige Ergebnisse vergleichen kannst.

Diese Übung ist Teil des Kurses

<Kurs>Modellvalidierung in Python</Kurs>

Übungsanweisungen

Ergänze cross_val_score().
- Verwende X_train als Trainingsdaten und y_train als Zielvariable.
- Nutze rfc als Modell, 10‑faches Cross-Validation und mse als Scoring-Funktion.
Gib den Mittelwert der cv-Ergebnisse aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)
mse = make_scorer(mean_squared_error)

# Set up cross_val_score
cv = cross_val_score(estimator=____,
                     X=____,
                     y=____,
                     cv=____,
                     scoring=____)

# Print the mean error
print(cv.____())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Modellvalidierung in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Bevor wir Modelle validieren können, müssen wir verstehen, wie man sie erstellt und damit arbeitet. Dieses Kapitel führt in Regressions- und Klassifikationsmodelle mit scikit-learn ein. Auf dieser Grundlage für den Modellaufbau bauen die weiteren Kapitel auf.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

In diesem Kapitel geht es um die Grundlagen der Modellvalidierung. Vom Aufteilen der Daten in Trainings-, Validierungs- und Testdatensätze bis hin zum Verständnis des Bias-Variance-Trade-offs legen wir die Basis für die in Kapitel drei geübten Techniken K-Fold und Leave-One-Out.

Exercise 1: Train-, Test- und Validierungsdatensätze erstellen Exercise 2: Erstelle ein Holdout-Set Exercise 3: Erstelle zwei Holdout-Sets Exercise 4: Warum Holdout-Sets verwenden Exercise 5: Genauigkeitsmetriken: Regressionsmodelle Exercise 6: Mittlerer absoluter Fehler Exercise 7: Mittlerer quadratischer Fehler Exercise 8: Leistung auf Datenteilmengen Exercise 9: Klassifikationsmetriken Exercise 10: Confusion-Matrizen Exercise 11: Noch einmal: Confusion-Matrizen Exercise 12: Precision vs. Recall Exercise 13: Der Bias-Varianz-Trade-off Exercise 14: Fehler durch Under-/Overfitting Exercise 15: Underfitte ich?

Holdout-Sets sind ein guter Einstieg in die Modellvalidierung. Ein einzelnes Train-/Test-Set reicht jedoch oft nicht aus. Cross-Validation gilt als Goldstandard zur Validierung der Modellleistung und wird fast immer beim Tuning von Modell-Hyperparametern eingesetzt. Dieses Kapitel konzentriert sich auf die Durchführung von Cross-Validation zur Validierung der Modellperformance.

Exercise 1: Die Tücken von Holdout-Sets Exercise 2: Zwei Stichproben Exercise 3: Mögliche Probleme Exercise 4: Cross-Validation Exercise 5: scikit-learns KFold()Exercise 6: KFold-Indizes verwenden Exercise 7: sklearns cross_val_score()Exercise 8: Methoden in scikit-learn Exercise 9: cross_val_score() implementieren

Aktuelle Übung

Exercise 10: Leave-One-Out-Cross-Validation (LOOCV)Exercise 11: Wann LOOCV verwenden Exercise 12: Leave-one-out-Cross-Validation

Die ersten drei Kapitel haben sich auf Validierungstechniken konzentriert. In Kapitel 4 wenden wir diese Techniken – insbesondere Cross-Validation – an und lernen dabei Hyperparameter-Tuning kennen. Denn Modellvalidierung macht Tuning erst möglich und hilft uns, das insgesamt beste Modell auszuwählen.

Exercise 1: Einführung in das Hyperparameter-Tuning Exercise 2: Hyperparameter erstellen Exercise 3: Ein Modell mit Wertebereichen ausführen Exercise 4: RandomizedSearchCV Exercise 5: Vorbereitung für RandomizedSearch Exercise 6: RandomizedSearchCV implementieren Exercise 7: Dein finales Modell auswählen Exercise 8: Beste Klassifikationsgenauigkeit Exercise 9: Das beste Präzisionsmodell auswählen Exercise 10: Kurs abgeschlossen!