CommencerCommencer gratuitement

Modèle de durée de vol : Plus de fonctionnalités !

Ajoutons d'autres caractéristiques à notre modèle. Cela ne se traduira pas nécessairement par un meilleur modèle. L'ajout de certaines fonctionnalités pourrait améliorer le modèle. L'ajout d'autres fonctionnalités pourrait aggraver la situation.

Un plus grand nombre de caractéristiques rendra toujours le modèle plus compliqué et plus difficile à interpréter.

Ce sont les caractéristiques que vous inclurez dans le prochain modèle :

  • km
  • org (aéroport d'origine, encodé à un seul coup, 8 niveaux)
  • depart (heure de départ, découpée en intervalles de 3 heures, codée en un seul point, 8 niveaux)
  • dow (jour de départ de la semaine, codé à un coup, 7 niveaux) et
  • mon (mois de départ, encodage à un coup, 12 niveaux).

Ceux-ci ont été assemblés dans la colonne features, qui est une représentation éparse de 32 colonnes (rappelez-vous que le codage à une touche produit un nombre de colonnes inférieur d'une unité au nombre de niveaux).

Les données sont disponibles sous la forme de flights, divisé aléatoirement en flights_train et flights_test.

Cet exercice est basé sur un petit sous-ensemble des données relatives aux vols.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Ajustez un modèle de régression linéaire aux données d'apprentissage.
  • Générer des prédictions pour les données de test.
  • Calculez le RMSE sur les données de test.
  • Regardez les coefficients du modèle. Certains d'entre eux sont-ils nuls ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Modifier et exécuter le code