CommencerCommencer gratuitement

Encodage de l'origine du vol

org La colonne « Aéroport de départ » dans les données relatives aux vols est une variable catégorielle indiquant l'aéroport d'où part un vol.

  • ORD — Aéroport international O'Hare (Chicago)
  • SFO — Aéroport international de San Francisco
  • JFK — Aéroport international John F. Kennedy (New York)
  • LGA — Aéroport La Guardia (New York)
  • SMF — Sacramento
  • SJC — San José
  • OGG — Kahului (Hawaii)

Il est évident qu'il ne s'agit là que d'un petit échantillon d'aéroports. Toutefois, comme il s'agit d'une variable catégorielle, elle doit être encodée en one-hot avant de pouvoir être utilisée dans un modèle de régression.

Les données se trouvent dans une variable appelée « flights ». Vous avez déjà utilisé un indexeur de chaîne pour créer une colonne de valeurs indexées correspondant aux chaînes dans org.

Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe d'encodeur one-hot.
  • Créez une instance d'encodeur one-hot, en nommant la colonne d'entrée « org_idx » et la colonne de sortie « org_dummy ».
  • Appliquez l'encodeur one-hot aux données relatives aux vols.
  • Générer un résumé du mappage des valeurs catégorielles vers des variables fictives codées en binaire. N'incluez que des valeurs uniques et classez par ordre d'org_idx.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Modifier et exécuter le code