Kategorische Spalten
In den Flugdaten gibt es zwei Spalten, carrier
und org
, die kategoriale Daten enthalten. Du musst diese Spalten in indizierte numerische Werte umwandeln.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die entsprechende Klasse und erstelle ein Indexer-Objekt, um die Spalte
carrier
von einem String in einen numerischen Index umzuwandeln. - Bereite das Indexer-Objekt auf die Flugdaten vor.
- Verwende den vorbereiteten Indexer, um die numerische Indexspalte zu erstellen.
- Wiederhole den Vorgang für die Spalte
org
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)