CommencerCommencer gratuitement

Modèle de durée de vol : Juste la distance

Dans cet exercice, vous allez construire un modèle de régression pour prédire la durée du vol (colonne duration ).

Pour l'instant, vous garderez le modèle simple, en n'incluant que la distance du vol (colonne km ) comme prédicteur.

Les données sont disponibles à l'adresse suivante : flights. Les premiers enregistrements sont affichés dans le terminal. Ces données ont également été divisées en ensembles de formation et de test et sont disponibles sous les noms flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un objet de régression linéaire. Indiquez le nom de la colonne d'étiquettes. Ajustez-le aux données d'apprentissage.
  • Faites des prévisions sur la base des données d'essai.
  • Créez un objet évaluateur de régression et utilisez-le pour évaluer la RMSE sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Modifier et exécuter le code