Modèle de durée de vol : Plus de fonctionnalités !

Ajoutons d'autres fonctionnalités à notre modèle. Cela ne garantit pas nécessairement un modèle plus performant. L'ajout de certaines fonctionnalités pourrait améliorer le modèle. L'ajout d'autres fonctionnalités pourrait aggraver la situation.

Plus il y a de fonctionnalités , plus le modèle devient complexe et difficile à interpréter.

Voici les fonctionnalités que vous intégrerez dans le prochain modèle :

km
org (aéroport d'origine, codage one-hot, 8 niveaux)
depart (heure de départ, classée par intervalles de 3 heures, codée selon la méthode « one-hot », 8 niveaux)
dow (jour de départ de la semaine, codage « one-hot », 7 niveaux) et
mon (mois de départ, codage one-hot, 12 niveaux).

Ces données ont été regroupées dans la colonne « features », qui est une représentation simplifiée de 32 colonnes (rappelons que le codage « one-hot » produit un nombre de colonnes inférieur d'une unité au nombre de niveaux).

Les données sont disponibles à l'adresse flights, réparties de manière aléatoire entre flights_train et flights_test.

Cet exercice est basé sur un petit sous-ensemble des données de vol.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

Ajustez un modèle de régression linéaire aux données d'apprentissage.
Générer des prédictions pour les données de test.
Calculez l'erreur quadratique moyenne (RMSE) sur les données de test.
Veuillez examiner les coefficients du modèle. Y en a-t-il qui sont égaux à zéro ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)

Modifier et exécuter le code