ComenzarEmpieza gratis

Modelo de duración del vuelo: ¡Más funciones!

Añadamos más características a nuestro modelo. Esto no necesariamente dará como resultado un modelo mejor. Añadir algunas características podría mejorar el modelo. Añadir otras funciones podría empeorar las cosas.

Cuantas más características tenga el modelo, más complicado y difícil de interpretar será.

Estas son las características que incluirás en el próximo modelo:

  • km
  • org (aeropuerto de origen, codificación one-hot, 8 niveles)
  • depart (hora de salida, agrupada en intervalos de 3 horas, codificada con un solo valor, 8 niveles)
  • dow (día de salida de la semana, codificado en uno, 7 niveles) y
  • mon (mes de salida, codificado como «one-hot», 12 niveles).

Estos se han reunido en la columna « features », que es una representación dispersa de 32 columnas (recuerda que la codificación one-hot produce un número de columnas que es uno menos que el número de niveles).

Los datos están disponibles en flights, divididos aleatoriamente en flights_train y flights_test.

Este ejercicio se basa en un pequeño subconjunto de los datos de vuelos.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Ajusta un modelo de regresión lineal a los datos de entrenamiento.
  • Genera predicciones para los datos de prueba.
  • Calcula el RMSE en los datos de prueba.
  • Observa los coeficientes del modelo. ¿Alguno de ellos es cero?

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Editar y ejecutar código