Aan de slagGa gratis aan de slag

De steekproefgrootte beperken

Een andere manier om overfitting te voorkomen is in de Decision Tree het minimumaantal observaties te bepalen dat nodig is om een leaf (of node) te laten groeien.

In deze oefening ga je:

  • deze ondergrens instellen op 100
  • het nieuwe model fitten op de medewerkersgegevens
  • de voorspellingen bekijken voor zowel de trainings- als de testset

De variabelen features_train, target_train, features_test en target_test zijn al beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Cursus bekijken

Oefeninstructies

  • Initialiseer de DecisionTreeClassifier en stel de minimale leaf-grootte in op 100 observaties
  • Fit het decision tree-model op de trainingsgegevens.
  • Controleer de accuracy van de voorspellingen op zowel de trainings- als de testset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)
Code bewerken en uitvoeren