Modelo de duração de voo: Adicionar horário de partida
No exercício anterior, o horário de partida foi agrupado e convertido em variáveis fictícias. Agora você vai incluir essas variáveis fictícias em um modelo de regressão para a duração do voo.
Os dados estão em flights
. As colunas km
, org_dummy
e depart_dummy
foram reunidas em features
, onde km
é o índice 0, org_dummy
vai do índice 1 ao 7 e depart_dummy
do índice 8 ao 14.
Os dados foram divididos em conjuntos de treinamento e teste e um modelo de regressão linear, regression
, foi criado com base nos dados de treinamento. As previsões foram feitas com base nos dados de teste e estão disponíveis em predictions
.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Encontre o endereço RMSE para previsões sobre os dados de teste.
- Encontre o tempo médio gasto no solo para voos que partem de OGG entre 21:00 e 24:00.
- Encontre o tempo médio gasto em solo para voos que partem de OGG entre 03:00 e 06:00.
- Encontre o tempo médio gasto em solo para voos que partem de JFK entre 03:00 e 06:00.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[8]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)