Random Forest: previsão
Agora você precisa fazer algumas previsões com seu modelo de random forest. A sintaxe é a mesma do modelo de gradient boosted trees.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão Spark foi criada para você como spark_conn. Tibbles vinculados aos conjuntos de dados de treino e teste armazenados no Spark foram pré-definidos como track_data_to_model_tbl e track_data_to_predict_tbl, respectivamente. O modelo de random forest foi pré-definido como random_forest_model.
- Defina uma variável
predictedque contenha as predições do modelo para nossos dados de teste.- Chame
ml_predict()com o modelo e os dados de teste como argumentos. Essa função vai gerar predições para o conjunto de teste e adicioná-las como uma nova coluna chamadaprediction.
- Chame
- Defina a variável
responsespara preparar os dados para comparar as respostas previstas com as respostas reais:- Selecione a coluna de resposta
year. - Colete os resultados.
- Use
mutate()para incluir as predições feitas empredicted.
- Selecione a coluna de resposta
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Training, testing sets & model are pre-defined
track_data_to_model_tbl
track_data_to_predict_tbl
random_forest_model
# Predict the responses for the testing data
predicted <- ml_predict(
___,
___) %>% pull(prediction)
# Create a response vs. actual dataset
responses <- ___