Modelo de duración del vuelo: Añadir aeropuerto de origen
Algunos aeropuertos son más transitados que otros. Algunos aeropuertos también son más grandes que otros. Los vuelos que salen de aeropuertos grandes o con mucho tráfico suelen pasar más tiempo rodando por la pista o esperando su turno para despegar. Por lo tanto, es lógico que la duración de un vuelo dependa no solo de la distancia recorrida, sino también del aeropuerto desde el que sale el vuelo.
Vas a hacer el modelo de regresión un poco más sofisticado incluyendo el aeropuerto de salida como predictor.
Estos datos se han dividido en conjuntos de entrenamiento y prueba, y están disponibles en flights_train
y flights_test
. El aeropuerto de origen, almacenado en la columna « org
», se ha indexado en « org_idx
», que a su vez se ha codificado con «one-hot» en « org_dummy
». Los primeros registros se muestran en la terminal.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Ajusta un modelo de regresión lineal a los datos de entrenamiento.
- Realiza predicciones para los datos de prueba.
- Calcula el RMSE para las predicciones en los datos de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)