Säulen zusammenbauen
Der letzte Schritt der Datenaufbereitung besteht darin, alle Prädikatorenspalten in einer einzigen Spalte zusammenzufassen.
Eine aktualisierte Version der flights
Daten, die alle Änderungen aus den vorangegangenen Übungen berücksichtigt, hat die folgenden Prädikatorenspalten:
mon
,dom
unddow
carrier_idx
(indizierter Wert voncarrier
)org_idx
(indizierter Wert vonorg
)km
depart
duration
Hinweis: Das Argument truncate=False
für die Methode show()
verhindert, dass die Daten in der Ausgabe abgeschnitten werden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse, die die Prädiktoren zusammenstellen wird.
- Erstelle ein Assembler-Objekt, mit dem du die Prädikatorenspalten zu einer einzigen Spalte zusammenführen kannst.
- Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)