Kolommen samenvoegen

De laatste stap in de gegevensvoorbereiding is het samenbrengen van alle predictorkolommen in één kolom.

Een bijgewerkte versie van de flights-gegevens, waarin alle veranderingen uit de vorige oefeningen zijn verwerkt, heeft de volgende predictorkolommen:

mon, dom en dow
carrier_idx (geïndexeerde waarde van carrier)
org_idx (geïndexeerde waarde van org)
km
depart
duration

Let op: Met het argument truncate=False bij de methode show() voorkom je dat gegevens in de output worden afgekapt.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Bekijk cursus

Oefeninstructies

Importeer de klasse die de predictors samenstelt.
Maak een assembler-object waarmee je de predictorkolommen kunt samenvoegen tot één kolom.
Gebruik de assembler om een nieuwe, samengevoegde kolom te genereren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)

Code bewerken en uitvoeren