Modelo de duración del vuelo: Añadir aeropuerto de origen
Algunos aeropuertos están más ocupados que otros. Algunos aeropuertos también son más grandes que otros. Es probable que los vuelos que salen de aeropuertos grandes o con mucho tráfico pasen más tiempo en rodaje o esperando su franja horaria de despegue. Por tanto, es lógico que la duración de un vuelo dependa no sólo de la distancia recorrida, sino también del aeropuerto de salida.
Vas a hacer el modelo de regresión un poco más sofisticado incluyendo el aeropuerto de salida como predictor.
Estos datos se han dividido en conjuntos de entrenamiento y de prueba y están disponibles en flights_train
y flights_test
. El aeropuerto de origen, almacenado en la columna org
, se ha indexado en org_idx
, que a su vez se ha codificado de un solo golpe en org_dummy
. Los primeros registros se muestran en el terminal.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Ajusta un modelo de regresión lineal a los datos de entrenamiento.
- Haz predicciones para los datos de las pruebas.
- Calcula el RMSE de las predicciones sobre los datos de prueba.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)