Kolommen samenvoegen
De laatste stap in de gegevensvoorbereiding is het samenbrengen van alle predictorkolommen in één kolom.
Een bijgewerkte versie van de flights-gegevens, waarin alle veranderingen uit de vorige oefeningen zijn verwerkt, heeft de volgende predictorkolommen:
mon,domendowcarrier_idx(geïndexeerde waarde vancarrier)org_idx(geïndexeerde waarde vanorg)kmdepartduration
Let op: Met het argument truncate=False bij de methode show() voorkom je dat gegevens in de output worden afgekapt.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer de klasse die de predictors samenstelt.
- Maak een assembler-object waarmee je de predictorkolommen kunt samenvoegen tot één kolom.
- Gebruik de assembler om een nieuwe, samengevoegde kolom te genereren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)