CommencerCommencer gratuitement

Colonnes catégorielles

Dans les données relatives aux vols, deux colonnes, « carrier » et « org », contiennent des données catégorielles. Il est nécessaire de convertir ces colonnes en valeurs numériques indexées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe appropriée et créez un objet indexeur pour transformer la colonne « carrier » d'une chaîne en un index numérique.
  • Veuillez préparer l'objet indexeur sur les données de vol.
  • Utilisez l'indexeur préparé pour créer la colonne d'index numérique.
  • Répétez le processus pour la colonne « org ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Modifier et exécuter le code