Modelo de duração do voo: Adicionar aeroporto de origem
Alguns aeroportos são mais movimentados do que outros. Alguns aeroportos também são maiores do que outros. Os voos que saem de aeroportos grandes ou movimentados provavelmente vão demorar mais tempo taxiando ou esperando a vez de decolar. Então, faz sentido que a duração de um voo possa depender não só da distância percorrida, mas também do aeroporto de onde sai o voo.
Você vai deixar o modelo de regressão um pouco mais sofisticado incluindo o aeroporto de partida como um preditor.
Esses dados foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train
e flights_test
. O aeroporto de origem, que tá na coluna “ org
”, foi indexado em “ org_idx
”, que por sua vez foi codificado em “ org_dummy
”. Os primeiros registros aparecem no terminal.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Ajuste um modelo de regressão linear aos dados de treinamento.
- Faça previsões para os dados de teste.
- Calcule o RMSE para as previsões nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)