Random Forest: modelado
Al igual que los gradient boosted trees, los random forests son otra forma de ensemble model. Es decir, usan muchos modelos más sencillos (de nuevo, árboles de decisión) y los combinan para obtener un único modelo mejor. En lugar de ejecutar el mismo modelo de forma iterativa, los random forests ejecutan muchos modelos por separado en paralelo, cada uno sobre un subconjunto aleatorio de los datos y con un subconjunto aleatorio de características. Luego, el árbol de decisión final hace predicciones agregando los resultados de los modelos individuales.
La función de random forest de sparklyr se llama ml_random_forest(). Su uso es exactamente el mismo que ml_gradient_boosted_trees() (consulta el primer ejercicio de este capítulo para recordar la sintaxis).
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Se ha creado una conexión de Spark para ti como spark_conn. Se ha predefinido un tibble asociado a los metadatos de pistas combinados y filtrados/timbre almacenados en Spark como track_data_to_model_tbl.
- Repite tu análisis de predicción del año, usando ahora un modelo de random forest.
- Obtén las columnas
timbredetrack_data_to_model_tbly asigna el resultado afeature_colnames. - Crea la fórmula para el modelo usando
reformulate(). - Ejecuta el modelo de random forest y asigna el resultado a
random_forest_model.
- Obtén las columnas
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl
# Get the timbre columns
feature_colnames <- ___
# Create the formula for the model
year_formula <- ___
# Run the random forest model
random_forest_model <- ___