ComenzarEmpieza gratis

Modelo de duración del vuelo: Sólo distancia

En este ejercicio construirás un modelo de regresión para predecir la duración del vuelo (la columna duration ).

De momento mantendrás el modelo simple, incluyendo sólo la distancia del vuelo (la columna km ) como predictor.

Los datos están en flights. Los primeros registros se muestran en el terminal. Estos datos también se han dividido en conjuntos de entrenamiento y de prueba y están disponibles en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un objeto de regresión lineal. Especifica el nombre de la columna de etiquetas. Ajústalo a los datos de entrenamiento.
  • Haz predicciones sobre los datos de las pruebas.
  • Crea un objeto evaluador de regresión y utilízalo para evaluar el RMSE en los datos de prueba.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Editar y ejecutar código