ComenzarEmpieza gratis

Modelo de duración del vuelo: Añadir hora de salida

En el ejercicio anterior, la hora de salida se agrupó y se convirtió en variables ficticias. Ahora vas a incluir esas variables ficticias en un modelo de regresión para la duración del vuelo.

Los datos están en flights. Las columnas km, org_dummy y depart_dummy se han ensamblado en features, donde km es el índice 0, org_dummy va del índice 1 al 7 y depart_dummy del índice 8 al 14.

Los datos se han dividido en conjuntos de entrenamiento y de prueba, y se ha construido un modelo de regresión lineal, regression, sobre los datos de entrenamiento. Las predicciones se han realizado sobre los datos de las pruebas y están disponibles en predictions.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Halla el RMSE de las predicciones sobre los datos de prueba.
  • Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 21:00 y las 24:00 horas.
  • Averigua el tiempo medio de permanencia en tierra de los vuelos que salen de OGG entre las 03:00 y las 06:00.
  • Averigua el tiempo medio de permanencia en tierra de los vuelos que salen del aeropuerto JFK entre las 03:00 y las 06:00.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[8]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Editar y ejecutar código