Usando índices do KFold

Você já criou splits, que contém índices para o conjunto de dados candy-data para realizar validação cruzada com 5 folds. Para obter uma estimativa melhor de como o modelo de random forest de um colega vai se sair em novos dados, você quer executar esse modelo nos cinco pares de índices de treino e validação que acabou de criar.

Neste exercício, você vai usar esses índices para verificar a acurácia desse modelo usando as cinco partições. Um loop for foi fornecido para ajudar nesse processo.

Este exercicio faz parte do curso

Validação de Modelos em Python

Instruções do exercicio

Use train_index e val_index para acessar os índices corretos de X e y ao criar os dados de treino e validação.
Ajuste rfc usando o conjunto de treino
Use rfc para criar previsões no conjunto de validação e imprima a acurácia na validação

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)

# Access the training and validation indices of splits
for train_index, val_index in splits:
    # Setup the training and validation data
    X_train, y_train = X[____], y[____]
    X_val, y_val = X[____], y[____]
    # Fit the random forest model
    rfc.____(____, ____)
    # Make predictions, and print the accuracy
    predictions = rfc.____(____)
    print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))

Editar e Executar Código

Este exercicio faz parte do curso

Validação de Modelos em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Antes de validar modelos, precisamos entender como criá-los e trabalhar com eles. Este capítulo apresenta a execução de modelos de regressão e classificação no scikit-learn. Vamos usar essa base de construção de modelos ao longo dos capítulos restantes.

Exercise 1: Introdução à validação de modelos Exercise 2: Etapas de modelagem Exercise 3: Dados vistos vs. não vistos Exercise 4: Modelos de regressão Exercise 5: Definir parâmetros e ajustar um modelo Exercise 6: Importância das variáveis Exercise 7: Modelos de classificação Exercise 8: Predições de classificação Exercise 9: Reutilizando parâmetros do modelo Exercise 10: Classificador random forest

Este capítulo foca nos fundamentos da validação de modelos. Desde dividir os dados em conjuntos de treinamento, validação e teste até construir o entendimento do trade-off viés-variância, vamos criar a base para as técnicas de validação K-Fold e Leave-One-Out praticadas no capítulo três.

Exercise 1: Criando conjuntos de dados de treino, teste e validação Exercise 2: Crie um conjunto de validação (holdout)Exercise 3: Crie dois conjuntos de holdout Exercise 4: Por que usar conjuntos de holdout Exercise 5: Métricas de acurácia: modelos de regressão Exercise 6: Erro absoluto médio Exercise 7: Erro quadrático médio Exercise 8: Desempenho em subconjuntos de dados Exercise 9: Métricas de classificação Exercise 10: Matrizes de confusão Exercise 11: Matrizes de confusão, novamente Exercise 12: Precisão vs. recall Exercise 13: O trade-off entre viés e variância Exercise 14: Erro por under/overfitting Exercise 15: Estou com underfitting?

Conjuntos de holdout são um ótimo começo para validar modelos. Porém, usar um único conjunto de treino e teste muitas vezes não é suficiente. A validação cruzada é considerada o padrão-ouro para validar o desempenho do modelo e é quase sempre usada ao ajustar hiperparâmetros. Este capítulo foca em realizar validação cruzada para validar o desempenho do modelo.

Exercise 1: Os problemas dos conjuntos de holdout Exercise 2: Duas amostras Exercise 3: Problemas potenciais Exercise 4: Validação cruzada Exercise 5: KFold() do scikit-learn Exercise 6: Usando índices do KFold

Exercicio Atual

Exercise 7: cross_val_score() do sklearn Exercise 8: Métodos do scikit-learn Exercise 9: Implementar cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usar LOOCV Exercise 12: Leave-one-out cross-validation

Os três primeiros capítulos focaram em técnicas de validação de modelos. No capítulo 4, aplicamos essas técnicas — em especial a validação cruzada — enquanto aprendemos sobre ajuste de hiperparâmetros. Afinal, a validação de modelos torna o ajuste possível e nos ajuda a selecionar o melhor modelo no geral.

Exercise 1: Introdução ao ajuste de hiperparâmetros Exercise 2: Criando hiperparâmetros Exercise 3: Executando um modelo usando intervalos Exercise 4: RandomizedSearchCV Exercise 5: Preparando para o RandomizedSearch Exercise 6: Implementando RandomizedSearchCV Exercise 7: Selecionando seu modelo final Exercise 8: Melhor acurácia de classificação Exercise 9: Selecionando o melhor modelo em precisão Exercise 10: Curso concluído!