Modèle de durée de vol : Juste la distance
Dans cet exercice, vous allez construire un modèle de régression pour prédire la durée du vol (colonne duration ).
Pour l'instant, vous garderez le modèle simple, en n'incluant que la distance du vol (colonne km ) comme prédicteur.
Les données sont disponibles à l'adresse suivante : flights. Les premiers enregistrements sont affichés dans le terminal. Ces données ont également été divisées en ensembles de formation et de test et sont disponibles sous les noms flights_train et flights_test.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un objet de régression linéaire. Indiquez le nom de la colonne d'étiquettes. Ajustez-le aux données d'apprentissage.
- Faites des prévisions sur la base des données d'essai.
- Créez un objet évaluateur de régression et utilisez-le pour évaluer la RMSE sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)