Modelo de duração do voo: Apenas distância
Neste exercício, você vai criar um modelo de regressão para prever a duração dos voos (a coluna “ duration
”).
Por enquanto, vamos manter o modelo simples, incluindo só a distância do voo (coluna “ km
”) como um indicador.
Os dados estão em flights
. Os primeiros registros aparecem no terminal. Esses dados também foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train
e flights_test
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Crie um objeto de regressão linear. Dá um nome pra coluna de rótulo. Ajuste-o aos dados de treinamento.
- Faça previsões com base nos dados dos testes.
- Crie um objeto avaliador de regressão e use-o para avaliar o RMSE nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)