ComeçarComece de graça

Random Forest: previsão

Agora você precisa fazer algumas previsões com seu modelo de random forest. A sintaxe é a mesma do modelo de gradient boosted trees.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão Spark foi criada para você como spark_conn. Tibbles vinculados aos conjuntos de dados de treino e teste armazenados no Spark foram pré-definidos como track_data_to_model_tbl e track_data_to_predict_tbl, respectivamente. O modelo de random forest foi pré-definido como random_forest_model.

  • Defina uma variável predicted que contenha as predições do modelo para nossos dados de teste.
    • Chame ml_predict() com o modelo e os dados de teste como argumentos. Essa função vai gerar predições para o conjunto de teste e adicioná-las como uma nova coluna chamada prediction.
  • Defina a variável responses para preparar os dados para comparar as respostas previstas com as respostas reais:
    • Selecione a coluna de resposta year.
    • Colete os resultados.
    • Use mutate() para incluir as predições feitas em predicted.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model

# Predict the responses for the testing data
predicted <- ml_predict(
      ___,
      ___) %>% pull(prediction)

# Create a response vs. actual dataset
responses <- ___
Editar e executar o código