ComenzarEmpieza gratis

Gradient boosted trees: predicción

Una vez que hayas ejecutado tu modelo, el siguiente paso es hacer predicciones con él. A diferencia de base R, que usa la función predict() para predecir, sparklyr usa la función ml_predict(). ml_predict() recibe dos argumentos: un modelo y datos de prueba.

ml_predict(a_model, testing_data)

Un caso de uso común es comparar las respuestas predichas con las respuestas reales, que puedes representar en R. El patrón de código para preparar estos datos es el siguiente. Ten en cuenta que, por ahora, añadir una columna de predicción debe hacerse localmente, así que primero debes recopilar los resultados.

predicted_vs_actual <- testing_data %>%
  select(actual) %>%
  collect() %>%
  mutate(predicted)

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark llamada spark_conn. Los tibbles vinculados a los conjuntos de datos de entrenamiento y de prueba almacenados en Spark han sido predefinidos como track_data_to_model_tbl y track_data_to_predict_tbl, respectivamente. El modelo de gradient boosted trees se ha predefinido como gradient_boosted_trees_model.

  • Define una variable predicted que contenga las predicciones del modelo para nuestros datos de prueba.
    • Llama a ml_predict() pasando el modelo y los datos de prueba como argumentos. Esta función generará predicciones para el conjunto de prueba y las añadirá como una nueva columna llamada prediction.
    • Usando pull(), podemos extraer esa columna y asignarla a predicted.
  • Define la variable responses para preparar los datos y comparar las respuestas predichas con las reales:
    • Selecciona la columna de respuesta year.
    • Recopila los resultados.
    • Usa mutate() para incorporar las predicciones guardadas en predicted.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
gradient_boosted_trees_model

# Predict the responses for the testing data
predicted <- ___(
      ___,
      ___) %>% pull(prediction)

# Prepare the data for comparing predicted responses with actual responses
responses <- track_data_to_predict_tbl %>%
  # Select the response column
  ___ %>%
  # Collect the results
  ___ %>%
  # Add in the predictions
  mutate(___)
Editar y ejecutar código