IniziaInizia gratis

Limitare la dimensione del campione

Un altro metodo per prevenire l'overfitting è specificare, nell'albero decisionale, il numero minimo di osservazioni necessario per far crescere una foglia (o nodo).

In questo esercizio:

  • imposterai questo limite minimo a 100
  • adatterai il nuovo modello ai dati dei dipendenti
  • esaminerai i risultati delle previsioni sia sul training set che sul test set

Le variabili features_train, target_train, features_test e target_test sono già disponibili nel tuo workspace.

Questo esercizio fa parte del corso

HR Analytics: prevedere l'abbandono dei dipendenti in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Inizializza DecisionTreeClassifier impostando il limite minimo della foglia a 100 osservazioni
  • Adatta il modello di albero decisionale ai dati di training.
  • Verifica l'accuratezza delle previsioni sia sul training set sia sul test set.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)
Modifica ed esegui il codice