Vertalen van vertrek luchthaven naar encodering

De kolom org in de vluchtgegevens is een categorische variabele die aangeeft vanaf welke luchthaven een vlucht vertrekt.

ORD — O'Hare International Airport (Chicago)
SFO — San Francisco International Airport
JFK — John F Kennedy International Airport (New York)
LGA — La Guardia Airport (New York)
SMF — Sacramento
SJC — San Jose
OGG — Kahului (Hawaï)

Dit is natuurlijk maar een kleine subset van luchthavens. Omdat dit een categorische variabele is, moet deze one-hot geëncodeerd worden voordat je hem in een regressiemodel kunt gebruiken.

De data staan in een variabele flights. Je hebt al een string indexer gebruikt om een kolom met indexwaarden te maken die overeenkomen met de strings in org.

Het kan handig zijn om de dia’s uit de lessen te herzien in het paneel Dia's naast de IPython Shell.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

Importeer de klasse voor one-hot encoding.
Maak een one-hot encoder aan, met de inputkolom org_idx en de outputkolom org_dummy.
Pas de one-hot encoder toe op de vluchtgegevens.
Genereer een samenvatting van de mapping van categorische waarden naar binair geëncodeerde dummyvariabelen. Neem alleen unieke waarden op en orden op org_idx.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()

Code bewerken en uitvoeren