Kreuzvalidierung

In den nächsten Aufgaben wirst du dein logistisches Regressionsmodell mithilfe der sogenannten k-fachen Kreuzvalidierung abstimmen. Dies ist eine Methode, um die Leistung des Modells bei ungesehenen Daten (wie deinem test-DataFrame) zu schätzen.

Es funktioniert, indem die Trainingsdaten in verschiedene Partitionen aufgeteilt werden. Die genaue Anzahl ist dir überlassen, aber in diesem Kurs wirst du den Standardwert von PySpark von drei verwenden. Nachdem die Daten aufgeteilt sind, wird eine der Partitionen zurückgehalten, und das Modell wird mit den übrigen trainiert. Dann wird der Fehler in der Partition gemessen, in der die Daten gehalten werden. Dies wird für jede Partition wiederholt, so dass jeder Datenblock genau einmal als Testdatensatz verwendet wird. Dann wird der Fehler über alle Partitionen gemittelt. Dies wird als Kreuzvalidierungsfehler des Modells bezeichnet und ist ein guter Schätzwert für den tatsächlichen Fehler bei den ausgewerteten Daten.

Du verwendest die Kreuzvalidierung, um die Hyperparameter auszuwählen, indem du ein Raster mit den möglichen Wertepaaren für die beiden Hyperparameter elasticNetParam und regParam erstellst und den Kreuzvalidierungsfehler verwendest, um alle verschiedenen Modelle zu vergleichen, damit du das beste auswählen kannst!

Was kann man mit der Kreuzvalidierung schätzen?

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>

Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten