CommencerCommencer gratuitement

Modèle de durée de vol : Plus de fonctionnalités !

Ajoutons d'autres fonctionnalités à notre modèle. Cela ne garantit pas nécessairement un modèle plus performant. L'ajout de certaines fonctionnalités pourrait améliorer le modèle. L'ajout d'autres fonctionnalités pourrait aggraver la situation.

Plus il y a de fonctionnalités , plus le modèle devient complexe et difficile à interpréter.

Voici les fonctionnalités que vous intégrerez dans le prochain modèle :

  • km
  • org (aéroport d'origine, codage one-hot, 8 niveaux)
  • depart (heure de départ, classée par intervalles de 3 heures, codée selon la méthode « one-hot », 8 niveaux)
  • dow (jour de départ de la semaine, codage « one-hot », 7 niveaux) et
  • mon (mois de départ, codage one-hot, 12 niveaux).

Ces données ont été regroupées dans la colonne « features », qui est une représentation simplifiée de 32 colonnes (rappelons que le codage « one-hot » produit un nombre de colonnes inférieur d'une unité au nombre de niveaux).

Les données sont disponibles à l'adresse flights, réparties de manière aléatoire entre flights_train et flights_test.

Cet exercice est basé sur un petit sous-ensemble des données de vol.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Ajustez un modèle de régression linéaire aux données d'apprentissage.
  • Générer des prédictions pour les données de test.
  • Calculez l'erreur quadratique moyenne (RMSE) sur les données de test.
  • Veuillez examiner les coefficients du modèle. Y en a-t-il qui sont égaux à zéro ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Modifier et exécuter le code