Cross-Validation mit sklearn

Wie in Kapitel 2 erklärt, ist Overfitting des Datensatzes ein häufiges Problem in der Analytics. Das passiert, wenn ein Modell die Trainingsdaten zu genau gelernt hat: Es liefert hervorragende Ergebnisse auf dem Datensatz, auf dem es trainiert wurde, verallgemeinert aber außerhalb davon nicht gut.

Während die in Kapitel 2 gelernte Train/Test-Aufteilung sicherstellt, dass das Modell nicht auf das Trainingsset overfittet, kann das Tuning der Hyperparameter zum Overfitting auf die Testkomponente führen, da das Modell darauf abgestimmt wird, die besten Vorhersagen auf dem Testset zu erzielen. Daher empfiehlt es sich, das Modell auf verschiedenen Testsets zu validieren. K-Fold-Cross-Validation ermöglicht genau das:

sie teilt den Datensatz in ein Trainingsset und ein Testset auf
sie trainiert das Modell, erstellt Vorhersagen und berechnet eine Kennzahl (du kannst z. B. Accuracy, Precision, Recall angeben)
sie wiederholt diesen Prozess insgesamt k‑mal
sie gibt den Durchschnitt der 10 Scores aus

In dieser Übung verwendest du Cross-Validation auf unserem Datensatz und bewertest die Ergebnisse mit der Funktion cross_val_score.

Diese Übung ist Teil des Kurses

HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen

Kurs anzeigen

Anleitung zur Übung

Importiere die Funktion zur Durchführung der Cross-Validation, cross_val_score(), aus dem Modul sklearn.model_selection.
Gib den Cross-Validation-Score für dein Modell aus und gib mit dem Hyperparameter cv 10 Folds an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the function for implementing cross validation
from sklearn.model_selection import ____

# Use that function to print the cross validation score for 10 folds
print(____(model,features,target,____=10))

Code bearbeiten und ausführen