Encodage de l'origine du vol
org
La colonne « Aéroport de départ » dans les données relatives aux vols est une variable catégorielle indiquant l'aéroport d'où part un vol.
- ORD — Aéroport international O'Hare (Chicago)
- SFO — Aéroport international de San Francisco
- JFK — Aéroport international John F. Kennedy (New York)
- LGA — Aéroport La Guardia (New York)
- SMF — Sacramento
- SJC — San José
- OGG — Kahului (Hawaii)
Il est évident qu'il ne s'agit là que d'un petit échantillon d'aéroports. Toutefois, comme il s'agit d'une variable catégorielle, elle doit être encodée en one-hot avant de pouvoir être utilisée dans un modèle de régression.
Les données se trouvent dans une variable appelée « flights
». Vous avez déjà utilisé un indexeur de chaîne pour créer une colonne de valeurs indexées correspondant aux chaînes dans org
.
Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe d'encodeur one-hot.
- Créez une instance d'encodeur one-hot, en nommant la colonne d'entrée «
org_idx
» et la colonne de sortie «org_dummy
». - Appliquez l'encodeur one-hot aux données relatives aux vols.
- Générer un résumé du mappage des valeurs catégorielles vers des variables fictives codées en binaire. N'incluez que des valeurs uniques et classez par ordre d'
org_idx
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()