Colonnes catégorielles
Les données relatives aux vols comportent deux colonnes, carrier et org, qui contiennent des données catégorielles. Vous devez transformer ces colonnes en valeurs numériques indexées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe appropriée et créez un objet indexeur pour transformer la colonne
carrierd'une chaîne de caractères en un index numérique. - Préparez l'objet indexeur sur les données de vol.
- Utilisez l'indexeur préparé pour créer la colonne d'index numérique.
- Répétez l'opération pour la colonne
org.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)