ComeçarComece gratuitamente

Modelo de duração de voo: Adicionar horário de partida

No exercício anterior, o horário de partida foi agrupado e convertido em variáveis fictícias. Agora você vai incluir essas variáveis fictícias em um modelo de regressão para a duração do voo.

Os dados estão em flights. As colunas km, org_dummy e depart_dummy foram reunidas em features, onde km é o índice 0, org_dummy vai do índice 1 ao 7 e depart_dummy do índice 8 ao 14.

Os dados foram divididos em conjuntos de treinamento e teste e um modelo de regressão linear, regression, foi criado com base nos dados de treinamento. As previsões foram feitas com base nos dados de teste e estão disponíveis em predictions.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Encontre o endereço RMSE para previsões sobre os dados de teste.
  • Encontre o tempo médio gasto no solo para voos que partem de OGG entre 21:00 e 24:00.
  • Encontre o tempo médio gasto em solo para voos que partem de OGG entre 03:00 e 06:00.
  • Encontre o tempo médio gasto em solo para voos que partem de JFK entre 03:00 e 06:00.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[8]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Editar e executar código