Aan de slagGa gratis aan de slag

Kolommen samenvoegen

De laatste stap in de gegevensvoorbereiding is het samenbrengen van alle predictorkolommen in één kolom.

Een bijgewerkte versie van de flights-gegevens, waarin alle veranderingen uit de vorige oefeningen zijn verwerkt, heeft de volgende predictorkolommen:

  • mon, dom en dow
  • carrier_idx (geïndexeerde waarde van carrier)
  • org_idx (geïndexeerde waarde van org)
  • km
  • depart
  • duration

Let op: Met het argument truncate=False bij de methode show() voorkom je dat gegevens in de output worden afgekapt.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer de klasse die de predictors samenstelt.
  • Maak een assembler-object waarmee je de predictorkolommen kunt samenvoegen tot één kolom.
  • Gebruik de assembler om een nieuwe, samengevoegde kolom te genereren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Code bewerken en uitvoeren