Codifica dell'aeroporto di partenza
La colonna org nei dati dei voli è una variabile categorica che indica l'aeroporto da cui parte un volo.
- ORD — O'Hare International Airport (Chicago)
- SFO — San Francisco International Airport
- JFK — John F Kennedy International Airport (New York)
- LGA — La Guardia Airport (New York)
- SMF — Sacramento
- SJC — San Jose
- OGG — Kahului (Hawaii)
Ovviamente questo è solo un piccolo sottoinsieme di aeroporti. Tuttavia, essendo una variabile categorica, deve essere sottoposta a one-hot encoding prima di poter essere usata in un modello di regressione.
I dati sono nella variabile flights. Hai già usato uno string indexer per creare una colonna di valori indicizzati corrispondenti alle stringhe in org.
Potresti trovare utile ripassare le diapositive delle lezioni nel pannello Diapositive accanto alla IPython Shell.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa la classe del one-hot encoder.
- Crea un'istanza del one-hot encoder, indicando
org_idxcome colonna di input eorg_dummycome colonna di output. - Applica il one-hot encoder ai dati dei voli.
- Genera un riepilogo della mappatura tra valori categorici e variabili binarie dummy. Includi solo i valori univoci e ordina per
org_idx.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()