Modelo de duração do voo: Adicionar hora de partida
No exercício anterior, a hora de partida foi agrupada e convertida em variáveis fictícias. Agora você vai incluir essas variáveis fictícias num modelo de regressão para a duração do voo.
Os dados estão em flights
. As colunas “ km
”, “ org_dummy
” e “ depart_dummy
” foram reunidas em “ features
”, onde “ km
” é o índice 0, “ org_dummy
” vai do índice 1 ao 7 e “ depart_dummy
” vai do índice 8 ao 14.
Os dados foram divididos em conjuntos de treinamento e teste, e um modelo de regressão linear, regression
, foi criado com base nos dados de treinamento. Fizeram previsões com base nos dados dos testes e estão disponíveis em predictions
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Descubra o RMSE para as previsões nos dados de teste.
- Descubra quanto tempo, em média, os voos que saem de OGG entre 21h e 24h ficam no chão.
- Descubra quanto tempo, em média, os voos que saem de OGG entre 3h e 6h ficam no chão.
- Descubra quanto tempo, em média, os voos que saem do JFK entre 3h e 6h ficam no chão.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)