Modelo de duración del vuelo: Añadir hora de salida
En el ejercicio anterior, la hora de salida se agrupó y se convirtió en variables ficticias. Ahora vas a incluir esas variables ficticias en un modelo de regresión para la duración del vuelo.
Los datos están en flights
. Las columnas km
, org_dummy
y depart_dummy
se han ensamblado en features
, donde km
es el índice 0, org_dummy
va del índice 1 al 7 y depart_dummy
del índice 8 al 14.
Los datos se han dividido en conjuntos de entrenamiento y de prueba, y se ha construido un modelo de regresión lineal, regression
, sobre los datos de entrenamiento. Las predicciones se han realizado sobre los datos de las pruebas y están disponibles en predictions
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Halla el RMSE de las predicciones sobre los datos de prueba.
- Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 21:00 y las 24:00 horas.
- Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 03:00 y las 06:00.
- Averigua el tiempo medio de permanencia en tierra de los vuelos que salen del aeropuerto JFK entre las 03:00 y las 06:00.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[8]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)