Aan de slagGa gratis aan de slag

Medewerkersdata splitsen

Overfitting van de gegevensset is een veelvoorkomend probleem in analytics. Dit gebeurt wanneer een model goed presteert op de gegevensset waarop het is ontwikkeld, maar niet kan generaliseren daarbuiten.

Een train/test-split wordt gebruikt om generalisatie van het model te waarborgen: je ontwikkelt het model met de trainingsset en probeert het later uit op de testset.

In deze oefening splits je zowel target als features in train- en testsets met respectievelijk een 75%/25%-verhouding.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Cursus bekijken

Oefeninstructies

  • Importeer train_test_split uit de module sklearn.model_selection
  • Gebruik train_test_split() om je gegevensset in trainings- en testsets te splitsen
  • Wijs 25% van je observaties toe aan de testset

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)
Code bewerken en uitvoeren