Erro por under/overfitting
O conjunto de dados de doces é perfeito para overfitting. Com apenas 85 observações, se você usar 20% para o conjunto de teste, vai perder muitos dados importantes que poderiam ser usados na modelagem. Imagine o cenário em que a maioria dos chocolates cai no conjunto de treino e muito poucos no conjunto de validação. Nosso modelo pode acabar vendo apenas que chocolate é um fator vital e deixar de perceber que outros atributos também são importantes. Neste exercício, você vai explorar como usar muitas features (colunas) em um modelo de random forest pode levar a overfitting.
Uma feature representa quais colunas dos dados são usadas em uma árvore de decisão. O parâmetro max_features limita o número de features disponíveis.
Este exercício faz parte do curso
Validação de Modelos em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))