Aan de slagGa gratis aan de slag

Wat is logistic regression?

Het model dat je in dit hoofdstuk gaat fitten heet een logistic regression. Dit model lijkt erg op een lineaire regressie, maar in plaats van een numerieke variabele te voorspellen, voorspelt het de kans (tussen 0 en 1) op een gebeurtenis.

Om dit als classificatie-algoritme te gebruiken hoef je alleen maar een afkapwaarde aan deze kansen toe te kennen. Als de voorspelde kans boven de afkapwaarde ligt, classificeer je die observatie als 'ja' (in dit geval: de vlucht komt te laat). Ligt de kans eronder, dan classificeer je als 'nee'!

Je gaat dit model afstellen door verschillende waarden te testen voor meerdere hyperparameters. Een hyperparameter is simpelweg een waarde in het model die niet uit de data wordt geschat, maar die je zelf opgeeft om de prestaties te maximaliseren. Voor deze cursus is het niet nodig om de wiskunde achter al deze waarden te begrijpen – het belangrijkste is dat je een paar opties uitprobeert en de beste kiest.

Waarom geef je hyperparameters op?

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen