Limitare la dimensione del campione

Un altro metodo per prevenire l'overfitting è specificare, nell'albero decisionale, il numero minimo di osservazioni necessario per far crescere una foglia (o nodo).

In questo esercizio:

imposterai questo limite minimo a 100
adatterai il nuovo modello ai dati dei dipendenti
esaminerai i risultati delle previsioni sia sul training set che sul test set

Le variabili features_train, target_train, features_test e target_test sono già disponibili nel tuo workspace.

Questo esercizio fa parte del corso

HR Analytics: prevedere l'abbandono dei dipendenti in Python

Visualizza corso

Istruzioni dell'esercizio

Inizializza DecisionTreeClassifier impostando il limite minimo della foglia a 100 osservazioni
Adatta il modello di albero decisionale ai dati di training.
Verifica l'accuratezza delle previsioni sia sul training set sia sul test set.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)

Modifica ed esegui il codice