Erro por under/overfitting

O conjunto de dados de doces é perfeito para overfitting. Com apenas 85 observações, se você usar 20% para o conjunto de teste, vai perder muitos dados importantes que poderiam ser usados na modelagem. Imagine o cenário em que a maioria dos chocolates cai no conjunto de treino e muito poucos no conjunto de validação. Nosso modelo pode acabar vendo apenas que chocolate é um fator vital e deixar de perceber que outros atributos também são importantes. Neste exercício, você vai explorar como usar muitas features (colunas) em um modelo de random forest pode levar a overfitting.

Uma feature representa quais colunas dos dados são usadas em uma árvore de decisão. O parâmetro max_features limita o número de features disponíveis.

Este exercicio faz parte do curso

Validação de Modelos em Python

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))

Editar e Executar Código

Este exercicio faz parte do curso

Validação de Modelos em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Antes de validar modelos, precisamos entender como criá-los e trabalhar com eles. Este capítulo apresenta a execução de modelos de regressão e classificação no scikit-learn. Vamos usar essa base de construção de modelos ao longo dos capítulos restantes.

Exercise 1: Introdução à validação de modelos Exercise 2: Etapas de modelagem Exercise 3: Dados vistos vs. não vistos Exercise 4: Modelos de regressão Exercise 5: Definir parâmetros e ajustar um modelo Exercise 6: Importância das variáveis Exercise 7: Modelos de classificação Exercise 8: Predições de classificação Exercise 9: Reutilizando parâmetros do modelo Exercise 10: Classificador random forest

Este capítulo foca nos fundamentos da validação de modelos. Desde dividir os dados em conjuntos de treinamento, validação e teste até construir o entendimento do trade-off viés-variância, vamos criar a base para as técnicas de validação K-Fold e Leave-One-Out praticadas no capítulo três.

Exercise 1: Criando conjuntos de dados de treino, teste e validação Exercise 2: Crie um conjunto de validação (holdout)Exercise 3: Crie dois conjuntos de holdout Exercise 4: Por que usar conjuntos de holdout Exercise 5: Métricas de acurácia: modelos de regressão Exercise 6: Erro absoluto médio Exercise 7: Erro quadrático médio Exercise 8: Desempenho em subconjuntos de dados Exercise 9: Métricas de classificação Exercise 10: Matrizes de confusão Exercise 11: Matrizes de confusão, novamente Exercise 12: Precisão vs. recall Exercise 13: O trade-off entre viés e variância Exercise 14: Erro por under/overfitting

Exercicio Atual

Exercise 15: Estou com underfitting?

Conjuntos de holdout são um ótimo começo para validar modelos. Porém, usar um único conjunto de treino e teste muitas vezes não é suficiente. A validação cruzada é considerada o padrão-ouro para validar o desempenho do modelo e é quase sempre usada ao ajustar hiperparâmetros. Este capítulo foca em realizar validação cruzada para validar o desempenho do modelo.

Exercise 1: Os problemas dos conjuntos de holdout Exercise 2: Duas amostras Exercise 3: Problemas potenciais Exercise 4: Validação cruzada Exercise 5: KFold() do scikit-learn Exercise 6: Usando índices do KFold Exercise 7: cross_val_score() do sklearn Exercise 8: Métodos do scikit-learn Exercise 9: Implementar cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usar LOOCV Exercise 12: Leave-one-out cross-validation

Os três primeiros capítulos focaram em técnicas de validação de modelos. No capítulo 4, aplicamos essas técnicas — em especial a validação cruzada — enquanto aprendemos sobre ajuste de hiperparâmetros. Afinal, a validação de modelos torna o ajuste possível e nos ajuda a selecionar o melhor modelo no geral.

Exercise 1: Introdução ao ajuste de hiperparâmetros Exercise 2: Criando hiperparâmetros Exercise 3: Executando um modelo usando intervalos Exercise 4: RandomizedSearchCV Exercise 5: Preparando para o RandomizedSearch Exercise 6: Implementando RandomizedSearchCV Exercise 7: Selecionando seu modelo final Exercise 8: Melhor acurácia de classificação Exercise 9: Selecionando o melhor modelo em precisão Exercise 10: Curso concluído!