LoslegenKostenlos loslegen

Kategoriale Spalten

In den Flugdaten gibt's zwei Spalten, „ carrier “ und „ org “, die kategoriale Daten haben. Du musst diese Spalten in indizierte Zahlenwerte umwandeln.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importier die passende Klasse und mach ein Indexer-Objekt, um die Spalte „ carrier ” von einer Zeichenfolge in einen numerischen Index umzuwandeln.
  • Bereite das Indexer-Objekt für die Flugdaten vor.
  • Verwende den vorbereiteten Indexer, um die numerische Indexspalte zu erstellen.
  • Mach das Gleiche für die Spalte „ org “.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Code bearbeiten und ausführen