Evitando desbalanceamentos de classe

Alguns dados têm resultados muito desbalanceados — como um conjunto de dados sobre uma doença rara. Ao dividir aleatoriamente, você pode acabar com uma divisão bem infeliz. Imagine que todas as observações raras fiquem no teste e nenhuma no treinamento. Isso arruinaria todo o seu processo de treinamento!

Felizmente, a função initial_split() traz uma solução. Neste exercício, você vai observar e resolver esses chamados desbalanceamentos de classe.

Já há código fornecido para criar um objeto de divisão diabetes_split com 75% para treinamento e 25% para teste.

Este exercicio faz parte do curso

Machine Learning com modelos baseados em árvores em R

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Editar e Executar Código

Este exercicio faz parte do curso

Machine Learning com modelos baseados em árvores em R

InicianteNível de habilidade

4.9+

Comece o curso gratuitamente

Pronto para montar um pipeline real de Machine Learning? Faça exercícios passo a passo para aprender a criar árvores de decisão, dividir seus dados e prever quais pacientes têm maior probabilidade de desenvolver diabetes. Por fim, você vai criar medidas de desempenho para avaliar seus modelos e validar suas previsões.

Exercise 1: Bem-vindo ao curso!Exercise 2: Por que métodos baseados em árvores?Exercise 3: Especifique essa árvore Exercise 4: Treine esse modelo Exercise 5: Como fazer sua árvore crescer Exercise 6: Divisão treino/teste Exercise 7: Evitando desbalanceamentos de classe

Exercicio Atual

Exercise 8: Do zero ao avançado Exercise 9: Prever e avaliar Exercise 10: Fazer previsões Exercise 11: Decifre a matriz Exercise 12: Você está prevendo corretamente?

Preparado para um pouco de chocolate? Use um conjunto de dados de avaliações de chocolate para construir árvores de regressão e avaliar seu desempenho com medidas de erro adequadas. Você vai superar as incertezas estatísticas de divisões simples treino/teste aplicando técnicas como validação cruzada e, depois, vai se aprofundar dominando o balanceamento entre viés e variância.

Exercise 1: Resultados contínuos Exercise 2: Treine uma árvore de regressão Exercise 3: Prever novos valores Exercise 4: Inspecionar a saída do modelo Exercise 5: Métricas de desempenho para árvores de regressão Exercise 6: Desempenho in-sample Exercise 7: Desempenho fora da amostra Exercise 8: Erros maiores, penalidade maior Exercise 9: Validação cruzada Exercise 10: Crie as dobras Exercise 11: Ajuste os folds Exercise 12: Avalie os folds Exercise 13: Compromisso entre viés e variância Exercise 14: Chame as coisas pelos nomes Exercise 15: Ajustar a complexidade do modelo Exercise 16: Desempenho in-sample e out-of-sample

Hora de levar a sério a busca pelos melhores hiperparâmetros e a interpretação de curvas ROC (receiver operating characteristic). Neste capítulo, você vai aproveitar a sabedoria do conjunto com modelos como bagging e random forests e construir ensembles que preveem quais clientes de cartão de crédito têm maior probabilidade de churn.

Exercise 1: Ajustando hiperparâmetros Exercise 2: Gerar uma grade de ajuste Exercise 3: Faça o tuning ao longo da grade Exercise 4: Escolha o vencedor Exercise 5: Mais métricas de modelo Exercise 6: Calcular a especificidade Exercise 7: Desenhar a curva ROC Exercise 8: Área sob a curva ROC Exercise 9: Árvores com bagging Exercise 10: Criar árvores com bagging Exercise 11: ROC e AUC in-sample Exercise 12: Verificar overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importância das variáveis

Pronto para a alta sociedade dos modelos baseados em árvores? Aplique gradient boosting para criar ensembles poderosos que superam tudo o que você já viu ou construiu. Aprenda a fazer o ajuste fino e a comparar diferentes modelos para escolher um vencedor para produção.

Exercise 1: Introdução ao boosting Exercise 2: Bagging vs. boosting Exercise 3: Especificar um conjunto impulsionado (boosted)Exercise 4: Gradient boosting Exercise 5: Treinar um ensemble com boosting Exercise 6: Avaliar o ensemble Exercise 7: Compare com um único classificador Exercise 8: Otimizar o ensemble com boosting Exercise 9: Preparação para ajuste Exercise 10: A calibração de verdade Exercise 11: Finalize o modelo Exercise 12: Comparação de modelos Exercise 13: Comparar AUC Exercise 14: Plotar curvas ROC Exercise 15: Encerramento