ComeçarComece de graça

Erro por under/overfitting

O conjunto de dados de doces é perfeito para overfitting. Com apenas 85 observações, se você usar 20% para o conjunto de teste, vai perder muitos dados importantes que poderiam ser usados na modelagem. Imagine o cenário em que a maioria dos chocolates cai no conjunto de treino e muito poucos no conjunto de validação. Nosso modelo pode acabar vendo apenas que chocolate é um fator vital e deixar de perceber que outros atributos também são importantes. Neste exercício, você vai explorar como usar muitas features (colunas) em um modelo de random forest pode levar a overfitting.

Uma feature representa quais colunas dos dados são usadas em uma árvore de decisão. O parâmetro max_features limita o número de features disponíveis.

Este exercício faz parte do curso

Validação de Modelos em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))
Editar e executar o código