Modèle de durée de vol : À distance
Dans cet exercice, vous allez créer un modèle de régression pour prédire la durée des vols (colonne « duration
»).
Pour l'instant, nous allons conserver un modèle simple, en n'incluant que la distance du vol (colonne « km
») comme prédicteur.
Les données sont disponibles à l'adresse suivante : flights
. Les premiers enregistrements s'affichent dans le terminal. Ces données ont également été divisées en ensembles d'entraînement et de test et sont disponibles aux adresses flights_train
et flights_test
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un objet de régression linéaire. Veuillez indiquer le nom de la colonne d'étiquette. Ajustez-le aux données d'entraînement.
- Effectuez des prédictions sur les données de test.
- Créez un objet évaluateur de régression et utilisez-le pour évaluer la RMSE sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)