Modelo de duración del vuelo: Solo distancia
En este ejercicio, crearás un modelo de regresión para predecir la duración de los vuelos (la columna « duration
»).
Por el momento, mantendrás el modelo sencillo, incluyendo solo la distancia del vuelo (la columna « km
») como predictor.
Los datos se encuentran en flights
. Los primeros registros se muestran en la terminal. Estos datos también se han dividido en conjuntos de entrenamiento y prueba, y están disponibles en flights_train
y flights_test
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Crea un objeto de regresión lineal. Especifica el nombre de la columna de etiquetas. Ajústalo a los datos de entrenamiento.
- Realiza predicciones sobre los datos de las pruebas.
- Crea un objeto evaluador de regresión y utilízalo para evaluar el RMSE en los datos de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)