Errore dovuto a under/overfitting
Il dataset delle caramelle è perfetto per il rischio di overfitting. Con solo 85 osservazioni, se usi il 20% per il dataset di test, perdi molti dati preziosi che potresti usare per l’addestramento del modello. Immagina lo scenario in cui la maggior parte delle caramelle al cioccolato finisce nei dati di training e pochissime nel campione di holdout. Il nostro modello potrebbe vedere solo che il cioccolato è un fattore cruciale, ma non cogliere che anche altri attributi sono importanti. In questo esercizio vedrai come usare troppe feature (colonne) in un modello di random forest possa portare a overfitting.
Una feature indica quali colonne dei dati vengono usate in un albero decisionale. Il parametro max_features limita il numero di feature disponibili.
Questo esercizio fa parte del corso
Validazione dei modelli in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))