Modèle de durée de vol : Plus de fonctionnalités !
Ajoutons d'autres fonctionnalités à notre modèle. Cela ne garantit pas nécessairement un modèle plus performant. L'ajout de certaines fonctionnalités pourrait améliorer le modèle. L'ajout d'autres fonctionnalités pourrait aggraver la situation.
Plus il y a de fonctionnalités , plus le modèle devient complexe et difficile à interpréter.
Voici les fonctionnalités que vous intégrerez dans le prochain modèle :
km
org
(aéroport d'origine, codage one-hot, 8 niveaux)depart
(heure de départ, classée par intervalles de 3 heures, codée selon la méthode « one-hot », 8 niveaux)dow
(jour de départ de la semaine, codage « one-hot », 7 niveaux) etmon
(mois de départ, codage one-hot, 12 niveaux).
Ces données ont été regroupées dans la colonne « features
», qui est une représentation simplifiée de 32 colonnes (rappelons que le codage « one-hot » produit un nombre de colonnes inférieur d'une unité au nombre de niveaux).
Les données sont disponibles à l'adresse flights
, réparties de manière aléatoire entre flights_train
et flights_test
.
Cet exercice est basé sur un petit sous-ensemble des données de vol.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Ajustez un modèle de régression linéaire aux données d'apprentissage.
- Générer des prédictions pour les données de test.
- Calculez l'erreur quadratique moyenne (RMSE) sur les données de test.
- Veuillez examiner les coefficients du modèle. Y en a-t-il qui sont égaux à zéro ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____
# Fit linear regression model to training data
regression = ____(____).____(____)
# Make predictions on testing data
predictions = regression.____(____)
# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Look at the model coefficients
coeffs = regression.____
print(coeffs)