Modelo de duração de voo: Adicionar aeroporto de origem
Alguns aeroportos são mais movimentados do que outros. Alguns aeroportos também são maiores do que outros. Os voos que partem de aeroportos grandes ou movimentados provavelmente passarão mais tempo taxiando ou aguardando o horário de decolagem. Portanto, é lógico que a duração de um voo pode depender não apenas da distância a ser percorrida, mas também do aeroporto de onde o voo parte.
Você tornará o modelo de regressão um pouco mais sofisticado ao incluir o aeroporto de partida como um indicador.
Esses dados foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train
e flights_test
. O aeroporto de origem, armazenado na coluna org
, foi indexado em org_idx
, que, por sua vez, foi codificado em um único ponto em org_dummy
. Os primeiros registros são exibidos no terminal.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Ajuste um modelo de regressão linear aos dados de treinamento.
- Faça previsões para os dados de teste.
- Calcule o RMSE para previsões sobre os dados de teste.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)