LoslegenKostenlos loslegen

Säulen zusammenbauen

Der letzte Schritt der Datenaufbereitung besteht darin, alle Prädikatorenspalten in einer einzigen Spalte zusammenzufassen.

Eine aktualisierte Version der flights Daten, die alle Änderungen aus den vorangegangenen Übungen berücksichtigt, hat die folgenden Prädikatorenspalten:

  • mon, dom und dow
  • carrier_idx (indizierter Wert von carrier)
  • org_idx (indizierter Wert von org)
  • km
  • depart
  • duration

Hinweis: Das Argument truncate=False für die Methode show() verhindert, dass die Daten in der Ausgabe abgeschnitten werden.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse, die die Prädiktoren zusammenstellen wird.
  • Erstelle ein Assembler-Objekt, mit dem du die Prädikatorenspalten zu einer einzigen Spalte zusammenführen kannst.
  • Verwende den Assembler, um eine neue konsolidierte Spalte zu erstellen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Code bearbeiten und ausführen