CommencerCommencer gratuitement

Modèle de durée de vol : À distance

Dans cet exercice, vous allez créer un modèle de régression pour prédire la durée des vols (colonne « duration »).

Pour l'instant, nous allons conserver un modèle simple, en n'incluant que la distance du vol (colonne « km ») comme prédicteur.

Les données sont disponibles à l'adresse suivante : flights. Les premiers enregistrements s'affichent dans le terminal. Ces données ont également été divisées en ensembles d'entraînement et de test et sont disponibles aux adresses flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un objet de régression linéaire. Veuillez indiquer le nom de la colonne d'étiquette. Ajustez-le aux données d'entraînement.
  • Effectuez des prédictions sur les données de test.
  • Créez un objet évaluateur de régression et utilisez-le pour évaluer la RMSE sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Modifier et exécuter le code