De steekproefgrootte beperken
Een andere manier om overfitting te voorkomen is in de Decision Tree het minimumaantal observaties te bepalen dat nodig is om een leaf (of node) te laten groeien.
In deze oefening ga je:
- deze ondergrens instellen op 100
- het nieuwe model fitten op de medewerkersgegevens
- de voorspellingen bekijken voor zowel de trainings- als de testset
De variabelen features_train, target_train, features_test en target_test zijn al beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in Python
Oefeninstructies
- Initialiseer de
DecisionTreeClassifieren stel de minimale leaf-grootte in op 100 observaties - Fit het decision tree-model op de trainingsgegevens.
- Controleer de accuracy van de voorspellingen op zowel de trainings- als de testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)