Säulen zusammenbauen
Der letzte Schritt bei der Datenvorbereitung ist, alle Spalten mit den Prädiktoren in einer einzigen Spalte zusammenzufassen.
Eine aktualisierte Version der Daten „ flights
“, die alle Änderungen aus den letzten Übungen berücksichtigt, hat die folgenden Prädiktorspalten:
mon``dom
unddow
carrier_idx
(Indexwert voncarrier
)org_idx
(Indexwert vonorg
)km
depart
duration
Hinweis: Das Argument „ truncate=False
“ für die Methode „ show()
“ verhindert, dass Daten in der Ausgabe abgeschnitten werden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse, die die Prädiktoren zusammenstellt.
- Erstell ein Assembler-Objekt, mit dem du die Prädiktorspalten in einer einzigen Spalte zusammenführen kannst.
- Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)