Stel een vector samen
De laatste stap in de Pipeline is om alle kolommen met onze features samen te voegen tot één kolom. Dit moet gebeuren voordat je kunt modelleren, omdat elke Spark-modelleerprocedure verwacht dat de gegevens deze vorm hebben. Je kunt dit doen door elke waarde uit een kolom op te slaan als een element in een vector. Vanuit het model gezien is elke observatie dan een vector met alle bijbehorende informatie en een label dat aangeeft aan welke waarde die observatie overeenkomt.
Daarom bevat de submodule pyspark.ml.feature een klasse genaamd VectorAssembler. Deze Transformer neemt alle door jou opgegeven kolommen en voegt ze samen tot een nieuwe vectorkolom.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Maak een
VectorAssemblerdoorVectorAssembler()aan te roepen met deinputCols-namen als een lijst en deoutputCol-naam"features".- De lijst met kolommen moet zijn:
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].
- De lijst met kolommen moet zijn:
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)