Modelo de duração de voo: Apenas distância
Neste exercício, você criará um modelo de regressão para prever a duração do voo (a coluna duration
).
No momento, você manterá o modelo simples, incluindo apenas a distância do voo (a coluna km
) como um preditor.
Os dados estão em flights
. Os primeiros registros são exibidos no terminal. Esses dados também foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train
e flights_test
.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções de exercício
- Crie um objeto de regressão linear. Especifique o nome da coluna de rótulos. Ajuste-o aos dados de treinamento.
- Faça previsões sobre os dados de teste.
- Crie um objeto avaliador de regressão e use-o para avaliar o RMSE nos dados de teste.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)