ComeçarComece de graça

Modelo de duração do voo: Adicionar hora de partida

No exercício anterior, a hora de partida foi agrupada e convertida em variáveis fictícias. Agora você vai incluir essas variáveis fictícias num modelo de regressão para a duração do voo.

Os dados estão em flights. As colunas “ km ”, “ org_dummy ” e “ depart_dummy ” foram reunidas em “ features ”, onde “ km ” é o índice 0, “ org_dummy ” vai do índice 1 ao 7 e “ depart_dummy ” vai do índice 8 ao 14.

Os dados foram divididos em conjuntos de treinamento e teste, e um modelo de regressão linear, regression, foi criado com base nos dados de treinamento. Fizeram previsões com base nos dados dos testes e estão disponíveis em predictions.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Descubra o RMSE para as previsões nos dados de teste.
  • Descubra quanto tempo, em média, os voos que saem de OGG entre 21h e 24h ficam no chão.
  • Descubra quanto tempo, em média, os voos que saem de OGG entre 3h e 6h ficam no chão.
  • Descubra quanto tempo, em média, os voos que saem do JFK entre 3h e 6h ficam no chão.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Editar e executar o código