Medewerkersdata splitsen

Overfitting van de gegevensset is een veelvoorkomend probleem in analytics. Dit gebeurt wanneer een model goed presteert op de gegevensset waarop het is ontwikkeld, maar niet kan generaliseren daarbuiten.

Een train/test-split wordt gebruikt om generalisatie van het model te waarborgen: je ontwikkelt het model met de trainingsset en probeert het later uit op de testset.

In deze oefening splits je zowel target als features in train- en testsets met respectievelijk een 75%/25%-verhouding.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Bekijk cursus

Oefeninstructies

Importeer train_test_split uit de module sklearn.model_selection
Gebruik train_test_split() om je gegevensset in trainings- en testsets te splitsen
Wijs 25% van je observaties toe aan de testset

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Code bewerken en uitvoeren