CommencerCommencer gratuitement

Encodage de l'origine des vols

La colonne org des données sur les vols est une variable catégorielle indiquant l'aéroport de départ d'un vol.

  • ORD - Aéroport international O'Hare (Chicago)
  • SFO - Aéroport international de San Francisco
  • JFK - Aéroport international John F Kennedy (New York)
  • LGA - Aéroport La Guardia (New York)
  • SMF - Sacramento
  • SJC - San Jose
  • OGG — Kahului (Hawaii)

Il est évident qu'il ne s'agit que d'un petit sous-ensemble d'aéroports. Néanmoins, comme il s'agit d'une variable catégorielle, elle doit être codée à un point avant de pouvoir être utilisée dans un modèle de régression.

Les données se trouvent dans une variable appelée flights. Vous avez déjà utilisé un indexeur de chaînes pour créer une colonne de valeurs indexées correspondant aux chaînes de org.

Vous pourriez trouver utile de réviser les diapositives des leçons dans le panneau Diapositives à côté du Shell IPython.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe des encodeurs à un coup.
  • Créez une instance de codeur à un coup, en nommant la colonne d'entrée org_idx et la colonne de sortie org_dummy.
  • Appliquez le codeur à un coup aux données des vols.
  • Générer un résumé de la correspondance entre les valeurs catégorielles et les variables nominales codées binaires. N'incluez que les valeurs uniques et classez-les par org_idx.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Modifier et exécuter le code