Das beste Präzisionsmodell auswählen

Dein Chef bietet an, dir in diesem Jahr drei Sportspiele zu finanzieren. Von den 41 Heimspielen deines Lieblingsteams willst du sichergehen, dass du zu drei Heimspielen gehst, die sie definitiv gewinnen. Du baust ein Modell, um zu entscheiden, welche Spiele dein Team gewinnen wird.

Dafür erstellst du einen Random-Search-Algorithmus und legst den Fokus auf die Modellpräzision (damit dein Team wirklich gewinnt). Außerdem willst du dein bestes Modell und die besten Parameter festhalten, damit du sie im nächsten Jahr wiederverwenden kannst (falls sich das Modell bewährt, natürlich). Du hast dich bereits für das Random-Forest-Klassifikationsmodell rfc entschieden und eine Parameterverteilung param_dist erzeugt.

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Anleitung zur Übung

Erstelle einen Präzisions-Scorer precision mit make_scorer(<scoring_function>).
Vervollständige die Random-Search-Methode mit rfc und param_dist.
Nutze rs.cv_results_, um die durchschnittlichen Testergebnisse auszugeben.
Gib die insgesamt beste Bewertung aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.metrics import precision_score, make_scorer

# Create a precision scorer
precision = ____(____)
# Finalize the random search
rs = RandomizedSearchCV(
  estimator=____, param_distributions=____,
  scoring = precision,
  cv=5, n_iter=10, random_state=1111)
rs.fit(X, y)

# print the mean test scores:
print('The accuracy for each run was: {}.'.format(rs.cv_results_['____']))
# print the best model score:
print('The best accuracy for a single model was: {}'.format(rs.____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Modellvalidierung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bevor wir Modelle validieren können, müssen wir verstehen, wie man sie erstellt und damit arbeitet. Dieses Kapitel führt in Regressions- und Klassifikationsmodelle mit scikit-learn ein. Auf dieser Grundlage für den Modellaufbau bauen die weiteren Kapitel auf.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

In diesem Kapitel geht es um die Grundlagen der Modellvalidierung. Vom Aufteilen der Daten in Trainings-, Validierungs- und Testdatensätze bis hin zum Verständnis des Bias-Variance-Trade-offs legen wir die Basis für die in Kapitel drei geübten Techniken K-Fold und Leave-One-Out.

Exercise 1: Train-, Test- und Validierungsdatensätze erstellen Exercise 2: Erstelle ein Holdout-Set Exercise 3: Erstelle zwei Holdout-Sets Exercise 4: Warum Holdout-Sets verwenden Exercise 5: Genauigkeitsmetriken: Regressionsmodelle Exercise 6: Mittlerer absoluter Fehler Exercise 7: Mittlerer quadratischer Fehler Exercise 8: Leistung auf Datenteilmengen Exercise 9: Klassifikationsmetriken Exercise 10: Confusion-Matrizen Exercise 11: Noch einmal: Confusion-Matrizen Exercise 12: Precision vs. Recall Exercise 13: Der Bias-Varianz-Trade-off Exercise 14: Fehler durch Under-/Overfitting Exercise 15: Underfitte ich?

Holdout-Sets sind ein guter Einstieg in die Modellvalidierung. Ein einzelnes Train-/Test-Set reicht jedoch oft nicht aus. Cross-Validation gilt als Goldstandard zur Validierung der Modellleistung und wird fast immer beim Tuning von Modell-Hyperparametern eingesetzt. Dieses Kapitel konzentriert sich auf die Durchführung von Cross-Validation zur Validierung der Modellperformance.

Exercise 1: Die Tücken von Holdout-Sets Exercise 2: Zwei Stichproben Exercise 3: Mögliche Probleme Exercise 4: Cross-Validation Exercise 5: scikit-learns KFold()Exercise 6: KFold-Indizes verwenden Exercise 7: sklearns cross_val_score()Exercise 8: Methoden in scikit-learn Exercise 9: cross_val_score() implementieren Exercise 10: Leave-One-Out-Cross-Validation (LOOCV)Exercise 11: Wann LOOCV verwenden Exercise 12: Leave-one-out-Cross-Validation

Die ersten drei Kapitel haben sich auf Validierungstechniken konzentriert. In Kapitel 4 wenden wir diese Techniken – insbesondere Cross-Validation – an und lernen dabei Hyperparameter-Tuning kennen. Denn Modellvalidierung macht Tuning erst möglich und hilft uns, das insgesamt beste Modell auszuwählen.

Exercise 1: Einführung in das Hyperparameter-Tuning Exercise 2: Hyperparameter erstellen Exercise 3: Ein Modell mit Wertebereichen ausführen Exercise 4: RandomizedSearchCV Exercise 5: Vorbereitung für RandomizedSearch Exercise 6: RandomizedSearchCV implementieren Exercise 7: Dein finales Modell auswählen Exercise 8: Beste Klassifikationsgenauigkeit Exercise 9: Das beste Präzisionsmodell auswählen

Aktuelle Übung

Exercise 10: Kurs abgeschlossen!