Modelo de duración del vuelo: Añadir hora de salida
En el ejercicio anterior, la hora de salida se agrupó y se convirtió en variables ficticias. Ahora vas a incluir esas variables ficticias en un modelo de regresión para la duración del vuelo.
Los datos se encuentran en flights
. Las columnas « km
», « org_dummy
» y « depart_dummy
» se han reunido en « features
», donde « km
» es el índice 0, « org_dummy
» va del índice 1 al 7 y « depart_dummy
» del índice 8 al 14.
Los datos se han dividido en conjuntos de entrenamiento y prueba, y se ha construido un modelo de regresión lineal, regression
, a partir de los datos de entrenamiento. Se han realizado predicciones basadas en los datos de las pruebas, que están disponibles en predictions
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Encuentra el RMSE para las predicciones en los datos de prueba.
- Calcula el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 21:00 y las 24:00.
- Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 03:00 y las 06:00.
- Averigua el tiempo medio de permanencia en tierra de los vuelos que salen del aeropuerto JFK entre las 03:00 y las 06:00.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)