ComenzarEmpieza gratis

Validación cruzada de un modelo simple de duración de vuelos

Ya has creado algunos modelos para predecir la duración de los vuelos y los has evaluado con una sencilla división entre entrenamiento y prueba. Sin embargo, la validación cruzada ofrece una forma mucho mejor de evaluar el rendimiento del modelo.

En este ejercicio vas a entrenar un modelo sencillo para la duración de los vuelos utilizando validación cruzada. El tiempo de viaje suele estar estrechamente relacionado con la distancia, por lo que utilizar únicamente la columna « km » debería proporcionar un modelo bastante preciso.

Los datos se han dividido aleatoriamente en flights_train y flights_test.

Las siguientes clases ya se han importado: LinearRegression, RegressionEvaluator, ParamGridBuilder y CrossValidator.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea una cuadrícula de parámetros vacía.
  • Crea objetos para construir y evaluar un modelo de regresión lineal. El modelo debe predecir el campo «duración».
  • Crea un objeto validador cruzado. Proporciona valores para los argumentos estimator, estimatorParamMaps y evaluator. Selecciona validación cruzada de 5 pliegues.
  • Entrena y prueba el modelo en múltiples pliegues de los datos de entrenamiento.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create an empty parameter grid
params = ____().____()

# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)

# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)

# Train and test model on multiple folds of the training data
cv = cv.____(____)

# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.
Editar y ejecutar código