Random Forest: predicción
Ahora necesitas hacer algunas predicciones con tu modelo de random forest. La sintaxis es la misma que con el modelo de gradient boosted trees.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Se ha creado una conexión de Spark para ti como spark_conn. Los tibbles vinculados a los conjuntos de datos de entrenamiento y prueba almacenados en Spark se han predefinido como track_data_to_model_tbl y track_data_to_predict_tbl, respectivamente. El modelo de random forest se ha predefinido como random_forest_model.
- Define una variable
predictedque contenga las predicciones del modelo para nuestros datos de prueba.- Llama a
ml_predict()con el modelo y los datos de prueba como argumentos. Esta función generará predicciones para el conjunto de prueba y las añadirá como una nueva columna llamadaprediction.
- Llama a
- Define la variable
responsespara preparar los datos y comparar las respuestas predichas con las reales:- Selecciona la columna de respuesta
year. - Recoge los resultados.
- Usa
mutate()para añadir las predicciones hechas enpredicted.
- Selecciona la columna de respuesta
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model
# Predict the responses for the testing data
predicted <- ml_predict(
___,
___) %>% pull(prediction)
# Create a response vs. actual dataset
responses <- ___