Random Forest: modelagem
Assim como gradient boosted trees, random forests são outra forma de ensemble model. Ou seja, eles usam vários modelos mais simples (novamente, árvores de decisão) e os combinam para formar um único modelo melhor. Em vez de executar o mesmo modelo de forma iterativa, random forests executam vários modelos separados em paralelo, cada um em um subconjunto aleatório dos dados, com um subconjunto aleatório de atributos. Depois, a árvore de decisão final faz previsões agregando os resultados dos modelos individuais.
A função de random forest do sparklyr é chamada ml_random_forest(). Seu uso é exatamente o mesmo que o de ml_gradient_boosted_trees() (veja o primeiro exercício deste capítulo para relembrar a sintaxe).
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão Spark já foi criada para você como spark_conn. Uma tibble conectada aos metadados/timbre combinados e filtrados das faixas, armazenados no Spark, já foi pré-definida como track_data_to_model_tbl.
- Repita sua análise de previsão do ano, agora usando um modelo de random forest.
- Pegue as colunas
timbredetrack_data_to_model_tble atribua o resultado afeature_colnames. - Crie a fórmula do modelo usando
reformulate(). - Execute o modelo de random forest e atribua o resultado a
random_forest_model.
- Pegue as colunas
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl
# Get the timbre columns
feature_colnames <- ___
# Create the formula for the model
year_formula <- ___
# Run the random forest model
random_forest_model <- ___