Test vs. Train
Nadat je je data hebt opgeschoond en klaargemaakt voor modelleren, is een van de belangrijkste stappen om de data te splitsen in een testset en een trainingsset. Raak daarna je testdata niet meer aan totdat je denkt dat je een goed model hebt! Terwijl je modellen bouwt en hypothesen vormt, kun je ze testen op je trainingsdata om een idee te krijgen van de prestaties.
Als je je favoriete model hebt, kun je kijken hoe goed het de nieuwe data in je testset voorspelt. Deze nooit eerder geziene data geeft je een veel realistischer beeld van de prestaties van je model in de echte wereld wanneer je nieuwe data probeert te voorspellen of te classificeren.
In Spark is het belangrijk dat je de data na alle transformaties splitst. Dit komt omdat bewerkingen zoals StringIndexer niet altijd dezelfde index opleveren, zelfs niet bij dezelfde lijst met strings.
Waarom is het belangrijk om een testset te gebruiken bij de modelbeoordeling?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen