LoslegenKostenlos loslegen

Kodierung der Flugherkunft

Die Spalte org in den Flugdaten ist eine kategorische Variable, die den Flughafen angibt, von dem ein Flug abfliegt.

  • ORD - Internationaler Flughafen O'Hare (Chicago)
  • SFO - Internationaler Flughafen von San Francisco
  • JFK - John F. Kennedy Internationaler Flughafen (New York)
  • LGA - La Guardia Flughafen (New York)
  • SMF - Sacramento
  • SJC - San Jose
  • OGG — Kahului (Hawaii)

Das ist natürlich nur eine kleine Teilmenge der Flughäfen. Da es sich jedoch um eine kategoriale Variable handelt, muss sie vor der Verwendung in einem Regressionsmodell einhändig kodiert werden.

Die Daten befinden sich in einer Variablen namens flights. Du hast bereits einen String-Indexer verwendet, um eine Spalte mit indizierten Werten zu erstellen, die den Strings in org entsprechen.

Es kann hilfreich sein, die Folien aus den Lektionen im Folien-Panel neben der IPython-Shell zu überarbeiten.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die One-Hot-Encoder-Klasse.
  • Erstelle eine One-Hot-Encoder-Instanz und benenne die Eingangsspalte org_idx und die Ausgangsspalte org_dummy.
  • Wende den One-Hot-Encoder auf die Flugdaten an.
  • Erstelle eine Zusammenfassung der Zuordnung von kategorialen Werten zu binär kodierten Dummy-Variablen. Nimm nur eindeutige Werte auf und sortiere nach org_idx.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Code bearbeiten und ausführen