Random Forest: modelado

Al igual que los gradient boosted trees, los random forests son otra forma de ensemble model. Es decir, usan muchos modelos más sencillos (de nuevo, árboles de decisión) y los combinan para obtener un único modelo mejor. En lugar de ejecutar el mismo modelo de forma iterativa, los random forests ejecutan muchos modelos por separado en paralelo, cada uno sobre un subconjunto aleatorio de los datos y con un subconjunto aleatorio de características. Luego, el árbol de decisión final hace predicciones agregando los resultados de los modelos individuales.

La función de random forest de sparklyr se llama ml_random_forest(). Su uso es exactamente el mismo que ml_gradient_boosted_trees() (consulta el primer ejercicio de este capítulo para recordar la sintaxis).

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión de Spark para ti como spark_conn. Se ha predefinido un tibble asociado a los metadatos de pistas combinados y filtrados/timbre almacenados en Spark como track_data_to_model_tbl.

Repite tu análisis de predicción del año, usando ahora un modelo de random forest.
- Obtén las columnas timbre de track_data_to_model_tbl y asigna el resultado a feature_colnames.
- Crea la fórmula para el modelo usando reformulate().
- Ejecuta el modelo de random forest y asigna el resultado a random_forest_model.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# track_data_to_model_tbl has been pre-defined
track_data_to_model_tbl

# Get the timbre columns
feature_colnames <- ___

# Create the formula for the model
year_formula <- ___

# Run the random forest model
random_forest_model <- ___

Editar y ejecutar código