Colonne categoriche
Nei dati dei voli ci sono due colonne, carrier e org, che contengono dati categorici. Devi trasformare queste colonne in valori numerici indicizzati.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa la classe appropriata e crea un oggetto indexer per trasformare la colonna
carrierda stringa a indice numerico. - Prepara l’oggetto indexer sui dati dei voli.
- Usa l’indexer preparato per creare la colonna con l’indice numerico.
- Ripeti il processo per la colonna
org.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)