ComenzarEmpieza gratis

Modelo de duración del vuelo: Solo distancia

En este ejercicio, crearás un modelo de regresión para predecir la duración de los vuelos (la columna « duration »).

Por el momento, mantendrás el modelo sencillo, incluyendo solo la distancia del vuelo (la columna « km ») como predictor.

Los datos se encuentran en flights. Los primeros registros se muestran en la terminal. Estos datos también se han dividido en conjuntos de entrenamiento y prueba, y están disponibles en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un objeto de regresión lineal. Especifica el nombre de la columna de etiquetas. Ajústalo a los datos de entrenamiento.
  • Realiza predicciones sobre los datos de las pruebas.
  • Crea un objeto evaluador de regresión y utilízalo para evaluar el RMSE en los datos de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Editar y ejecutar código