ComenzarEmpieza gratis

Modelo de duración del vuelo: Añadir aeropuerto de origen

Algunos aeropuertos están más ocupados que otros. Algunos aeropuertos también son más grandes que otros. Es probable que los vuelos que salen de aeropuertos grandes o con mucho tráfico pasen más tiempo en rodaje o esperando su franja horaria de despegue. Por tanto, es lógico que la duración de un vuelo dependa no sólo de la distancia recorrida, sino también del aeropuerto de salida.

Vas a hacer el modelo de regresión un poco más sofisticado incluyendo el aeropuerto de salida como predictor.

Estos datos se han dividido en conjuntos de entrenamiento y de prueba y están disponibles en flights_train y flights_test. El aeropuerto de origen, almacenado en la columna org, se ha indexado en org_idx, que a su vez se ha codificado de un solo golpe en org_dummy. Los primeros registros se muestran en el terminal.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Ajusta un modelo de regresión lineal a los datos de entrenamiento.
  • Haz predicciones para los datos de las pruebas.
  • Calcula el RMSE de las predicciones sobre los datos de prueba.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data
predictions = ____.____(____)

# Calculate the RMSE on testing data
____(____).____(____)
Editar y ejecutar código