Random Forest: predicción

Ahora necesitas hacer algunas predicciones con tu modelo de random forest. La sintaxis es la misma que con el modelo de gradient boosted trees.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión de Spark para ti como spark_conn. Los tibbles vinculados a los conjuntos de datos de entrenamiento y prueba almacenados en Spark se han predefinido como track_data_to_model_tbl y track_data_to_predict_tbl, respectivamente. El modelo de random forest se ha predefinido como random_forest_model.

Define una variable predicted que contenga las predicciones del modelo para nuestros datos de prueba.
- Llama a ml_predict() con el modelo y los datos de prueba como argumentos. Esta función generará predicciones para el conjunto de prueba y las añadirá como una nueva columna llamada prediction.
Define la variable responses para preparar los datos y comparar las respuestas predichas con las reales:
- Selecciona la columna de respuesta year.
- Recoge los resultados.
- Usa mutate() para añadir las predicciones hechas en predicted.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model

# Predict the responses for the testing data
predicted <- ml_predict(
      ___,
      ___) %>% pull(prediction)

# Create a response vs. actual dataset
responses <- ___

Editar y ejecutar código