ComenzarEmpieza gratis

Modelo de duración del vuelo: Añadir hora de salida

En el ejercicio anterior, la hora de salida se agrupó y se convirtió en variables ficticias. Ahora vas a incluir esas variables ficticias en un modelo de regresión para la duración del vuelo.

Los datos se encuentran en flights. Las columnas « km », « org_dummy » y « depart_dummy » se han reunido en « features », donde « km » es el índice 0, « org_dummy » va del índice 1 al 7 y « depart_dummy » del índice 8 al 14.

Los datos se han dividido en conjuntos de entrenamiento y prueba, y se ha construido un modelo de regresión lineal, regression, a partir de los datos de entrenamiento. Se han realizado predicciones basadas en los datos de las pruebas, que están disponibles en predictions.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Encuentra el RMSE para las predicciones en los datos de prueba.
  • Calcula el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 21:00 y las 24:00.
  • Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 03:00 y las 06:00.
  • Averigua el tiempo medio de permanencia en tierra de los vuelos que salen del aeropuerto JFK entre las 03:00 y las 06:00.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Editar y ejecutar código