Aan de slagGa gratis aan de slag

Crossvalidatie

In de volgende oefeningen ga je je logistieke-regressiemodel afstemmen met een procedure die k-fold crossvalidatie heet. Dit is een methode om de prestaties van het model op onzichtbare data te schatten (zoals je test DataFrame).

Dit werkt door de trainingsdata in een paar verschillende deelverzamelingen te splitsen. Het exacte aantal kies je zelf, maar in deze cursus gebruik je de standaardwaarde van PySpark: drie. Zodra de data is opgesplitst, wordt één van de deelverzamelingen apart gehouden en wordt het model getraind op de andere. Daarna wordt de fout gemeten op de apart gehouden deelverzameling. Dit wordt herhaald voor elke deelverzameling, zodat elk blok data precies één keer apart wordt gehouden en gebruikt als testset. Vervolgens worden de fouten over de deelverzamelingen gemiddeld. Dit heet de crossvalidatiefout van het model en is een goede schatting van de daadwerkelijke fout op de apart gehouden data.

Je gaat crossvalidatie gebruiken om de hyperparameters te kiezen door een rooster te maken met alle mogelijke paren van waarden voor de twee hyperparameters, elasticNetParam en regParam, en de crossvalidatiefout te gebruiken om alle verschillende modellen te vergelijken zodat je de beste kunt kiezen!

Wat kun je met crossvalidatie schatten?

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen