Kategoriale Spalten
In den Flugdaten gibt's zwei Spalten, „ carrier
“ und „ org
“, die kategoriale Daten haben. Du musst diese Spalten in indizierte Zahlenwerte umwandeln.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importier die passende Klasse und mach ein Indexer-Objekt, um die Spalte „
carrier
” von einer Zeichenfolge in einen numerischen Index umzuwandeln. - Bereite das Indexer-Objekt für die Flugdaten vor.
- Verwende den vorbereiteten Indexer, um die numerische Indexspalte zu erstellen.
- Mach das Gleiche für die Spalte „
org
“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)