Säulen zusammenbauen
Der letzte Schritt der Datenaufbereitung besteht darin, alle Prädikatorenspalten in einer einzigen Spalte zusammenzufassen.
Eine aktualisierte Version der flights Daten, die alle Änderungen aus den vorangegangenen Übungen berücksichtigt, hat die folgenden Prädikatorenspalten:
mon,domunddowcarrier_idx(indizierter Wert voncarrier)org_idx(indizierter Wert vonorg)kmdepartduration
Hinweis: Das Argument truncate=False für die Methode show() verhindert, dass die Daten in der Ausgabe abgeschnitten werden.
Diese Übung ist Teil des Kurses
<Kurs>Maschinelles Lernen mit PySpark</Kurs>Übungsanweisungen
- Importiere die Klasse, die die Prädiktoren zusammenstellen wird.
- Erstelle ein Assembler-Objekt, mit dem du die Prädikatorenspalten zu einer einzigen Spalte zusammenführen kannst.
- Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)