IniziaInizia gratis

Codifica dell'aeroporto di partenza

La colonna org nei dati dei voli è una variabile categorica che indica l'aeroporto da cui parte un volo.

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (New York)
  • LGA — La Guardia Airport (New York)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaii)

Ovviamente questo è solo un piccolo sottoinsieme di aeroporti. Tuttavia, essendo una variabile categorica, deve essere sottoposta a one-hot encoding prima di poter essere usata in un modello di regressione.

I dati sono nella variabile flights. Hai già usato uno string indexer per creare una colonna di valori indicizzati corrispondenti alle stringhe in org.

Potresti trovare utile ripassare le diapositive delle lezioni nel pannello Diapositive accanto alla IPython Shell.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe del one-hot encoder.
  • Crea un'istanza del one-hot encoder, indicando org_idx come colonna di input e org_dummy come colonna di output.
  • Applica il one-hot encoder ai dati dei voli.
  • Genera un riepilogo della mappatura tra valori categorici e variabili binarie dummy. Includi solo i valori univoci e ordina per org_idx.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Modifica ed esegui il codice