Random Forest: modelagem

Assim como gradient boosted trees, random forests são outra forma de ensemble model. Ou seja, eles usam vários modelos mais simples (novamente, árvores de decisão) e os combinam para formar um único modelo melhor. Em vez de executar o mesmo modelo de forma iterativa, random forests executam vários modelos separados em paralelo, cada um em um subconjunto aleatório dos dados, com um subconjunto aleatório de atributos. Depois, a árvore de decisão final faz previsões agregando os resultados dos modelos individuais.

A função de random forest do sparklyr é chamada ml_random_forest(). Seu uso é exatamente o mesmo que o de ml_gradient_boosted_trees() (veja o primeiro exercício deste capítulo para relembrar a sintaxe).

Este exercicio faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercicio

Uma conexão Spark já foi criada para você como spark_conn. Uma tibble conectada aos metadados/timbre combinados e filtrados das faixas, armazenados no Spark, já foi pré-definida como track_data_to_model_tbl.

Repita sua análise de previsão do ano, agora usando um modelo de random forest.
- Pegue as colunas timbre de track_data_to_model_tbl e atribua o resultado a feature_colnames.
- Crie a fórmula do modelo usando reformulate().
- Execute o modelo de random forest e atribua o resultado a random_forest_model.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl

# Get the timbre columns
feature_colnames <- ___

# Create the formula for the model
year_formula <- ___

# Run the random forest model
random_forest_model <- ___

Editar e Executar Código