LoslegenKostenlos loslegen

Kategorische Spalten

In den Flugdaten gibt es zwei Spalten, carrier und org, die kategoriale Daten enthalten. Du musst diese Spalten in indizierte numerische Werte umwandeln.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die entsprechende Klasse und erstelle ein Indexer-Objekt, um die Spalte carrier von einem String in einen numerischen Index umzuwandeln.
  • Bereite das Indexer-Objekt auf die Flugdaten vor.
  • Verwende den vorbereiteten Indexer, um die numerische Indexspalte zu erstellen.
  • Wiederhole den Vorgang für die Spalte org.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Code bearbeiten und ausführen