CommencerCommencer gratuitement

Colonnes catégorielles

Les données relatives aux vols comportent deux colonnes, carrier et org, qui contiennent des données catégorielles. Vous devez transformer ces colonnes en valeurs numériques indexées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe appropriée et créez un objet indexeur pour transformer la colonne carrier d'une chaîne de caractères en un index numérique.
  • Préparez l'objet indexeur sur les données de vol.
  • Utilisez l'indexeur préparé pour créer la colonne d'index numérique.
  • Répétez l'opération pour la colonne org.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Modifier et exécuter le code