LoslegenKostenlos loslegen

Säulen zusammenbauen

Der letzte Schritt bei der Datenvorbereitung ist, alle Spalten mit den Prädiktoren in einer einzigen Spalte zusammenzufassen.

Eine aktualisierte Version der Daten „ flights “, die alle Änderungen aus den letzten Übungen berücksichtigt, hat die folgenden Prädiktorspalten:

  • mon``dom und dow
  • carrier_idx (Indexwert von carrier)
  • org_idx (Indexwert von org)
  • km
  • depart
  • duration

Hinweis: Das Argument „ truncate=False “ für die Methode „ show() “ verhindert, dass Daten in der Ausgabe abgeschnitten werden.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse, die die Prädiktoren zusammenstellt.
  • Erstell ein Assembler-Objekt, mit dem du die Prädiktorspalten in einer einzigen Spalte zusammenführen kannst.
  • Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Code bearbeiten und ausführen