Importância das variáveis

Você já sabe que árvores com bagging são um modelo de ensemble que resolve o problema de variância das árvores de decisão. Agora você aprendeu que o algoritmo de random forest melhora ainda mais isso ao usar apenas um subconjunto aleatório das variáveis em cada árvore. Isso reduz ainda mais a correlação dentro do ensemble, aumentando seu desempenho preditivo.

Neste exercício, você vai construir um random forest e traçar a importância dos preditores usando o pacote vip. Os dados de treino, customers_train, já estão pré-carregados no seu ambiente.

Este exercicio faz parte do curso

Machine Learning com modelos baseados em árvores em R

Instruções do exercicio

Crie spec, a especificação de um modelo de classificação random forest usando o engine "ranger" e a importância de variáveis "impurity".
Crie model ajustando o tibble customers_train a spec, usando still_customer como desfecho e todas as outras colunas como variáveis preditoras.
Plote a importância das variáveis usando a função vip() do pacote vip (que não está pré-carregado).

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)

Editar e Executar Código

Este exercicio faz parte do curso

Machine Learning com modelos baseados em árvores em R

InicianteNível de habilidade

4.9+

Comece o curso gratuitamente

Pronto para montar um pipeline real de Machine Learning? Faça exercícios passo a passo para aprender a criar árvores de decisão, dividir seus dados e prever quais pacientes têm maior probabilidade de desenvolver diabetes. Por fim, você vai criar medidas de desempenho para avaliar seus modelos e validar suas previsões.

Exercise 1: Bem-vindo ao curso!Exercise 2: Por que métodos baseados em árvores?Exercise 3: Especifique essa árvore Exercise 4: Treine esse modelo Exercise 5: Como fazer sua árvore crescer Exercise 6: Divisão treino/teste Exercise 7: Evitando desbalanceamentos de classe Exercise 8: Do zero ao avançado Exercise 9: Prever e avaliar Exercise 10: Fazer previsões Exercise 11: Decifre a matriz Exercise 12: Você está prevendo corretamente?

Preparado para um pouco de chocolate? Use um conjunto de dados de avaliações de chocolate para construir árvores de regressão e avaliar seu desempenho com medidas de erro adequadas. Você vai superar as incertezas estatísticas de divisões simples treino/teste aplicando técnicas como validação cruzada e, depois, vai se aprofundar dominando o balanceamento entre viés e variância.

Exercise 1: Resultados contínuos Exercise 2: Treine uma árvore de regressão Exercise 3: Prever novos valores Exercise 4: Inspecionar a saída do modelo Exercise 5: Métricas de desempenho para árvores de regressão Exercise 6: Desempenho in-sample Exercise 7: Desempenho fora da amostra Exercise 8: Erros maiores, penalidade maior Exercise 9: Validação cruzada Exercise 10: Crie as dobras Exercise 11: Ajuste os folds Exercise 12: Avalie os folds Exercise 13: Compromisso entre viés e variância Exercise 14: Chame as coisas pelos nomes Exercise 15: Ajustar a complexidade do modelo Exercise 16: Desempenho in-sample e out-of-sample

Hora de levar a sério a busca pelos melhores hiperparâmetros e a interpretação de curvas ROC (receiver operating characteristic). Neste capítulo, você vai aproveitar a sabedoria do conjunto com modelos como bagging e random forests e construir ensembles que preveem quais clientes de cartão de crédito têm maior probabilidade de churn.

Exercise 1: Ajustando hiperparâmetros Exercise 2: Gerar uma grade de ajuste Exercise 3: Faça o tuning ao longo da grade Exercise 4: Escolha o vencedor Exercise 5: Mais métricas de modelo Exercise 6: Calcular a especificidade Exercise 7: Desenhar a curva ROC Exercise 8: Área sob a curva ROC Exercise 9: Árvores com bagging Exercise 10: Criar árvores com bagging Exercise 11: ROC e AUC in-sample Exercise 12: Verificar overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importância das variáveis

Exercicio Atual

Pronto para a alta sociedade dos modelos baseados em árvores? Aplique gradient boosting para criar ensembles poderosos que superam tudo o que você já viu ou construiu. Aprenda a fazer o ajuste fino e a comparar diferentes modelos para escolher um vencedor para produção.

Exercise 1: Introdução ao boosting Exercise 2: Bagging vs. boosting Exercise 3: Especificar um conjunto impulsionado (boosted)Exercise 4: Gradient boosting Exercise 5: Treinar um ensemble com boosting Exercise 6: Avaliar o ensemble Exercise 7: Compare com um único classificador Exercise 8: Otimizar o ensemble com boosting Exercise 9: Preparação para ajuste Exercise 10: A calibração de verdade Exercise 11: Finalize o modelo Exercise 12: Comparação de modelos Exercise 13: Comparar AUC Exercise 14: Plotar curvas ROC Exercise 15: Encerramento