Colonnes catégorielles
Dans les données relatives aux vols, deux colonnes, « carrier
» et « org
», contiennent des données catégorielles. Il est nécessaire de convertir ces colonnes en valeurs numériques indexées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe appropriée et créez un objet indexeur pour transformer la colonne «
carrier
» d'une chaîne en un index numérique. - Veuillez préparer l'objet indexeur sur les données de vol.
- Utilisez l'indexeur préparé pour créer la colonne d'index numérique.
- Répétez le processus pour la colonne «
org
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)