Säulen zusammenbauen
Der letzte Schritt der Datenaufbereitung besteht darin, alle Prädikatorenspalten in einer einzigen Spalte zusammenzufassen.
Eine aktualisierte Version der flights Daten, die alle Änderungen aus den vorangegangenen Übungen berücksichtigt, hat die folgenden Prädikatorenspalten:
mon,domunddowcarrier_idx(indizierter Wert voncarrier)org_idx(indizierter Wert vonorg)kmdepartduration
Hinweis: Das Argument truncate=False für die Methode show() verhindert, dass die Daten in der Ausgabe abgeschnitten werden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse, die die Prädiktoren zusammenstellen wird.
- Erstelle ein Assembler-Objekt, mit dem du die Prädikatorenspalten zu einer einzigen Spalte zusammenführen kannst.
- Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)