Einen Vektor erstellen
Der letzte Schritt in der Pipeline
besteht darin, alle Spalten, die unsere Merkmale enthalten, zu einer einzigen Spalte zusammenzufassen. Dies muss vor der Modellerstellung geschehen, da jede Spark-Modellerstellungsroutine erwartet, dass die Daten in dieser Form vorliegen. Dies kann erreicht werden, indem jeder Wert einer Spalte als Eintrag in einem Vektor gespeichert wird. Aus der Sicht des Modells ist dann jede Beobachtung ein Vektor, der alle Informationen über sie enthält, und ein Label, das dem Modellierer sagt, welchem Wert diese Beobachtung entspricht.
Aus diesem Grund enthält das Untermodul pyspark.ml.feature
eine Klasse namens VectorAssembler
. Dieser Transformer
nimmt alle von dir angegebenen Spalten und kombiniert sie zu einer neuen Vektorspalte.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Erstelle einen
VectorAssembler
, indem duVectorAssembler()
mit deninputCols
Namen als Liste und demoutputCol
Namen"features"
aufrufst.- Die Liste der Spalten sollte
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"]
sein.
- Die Liste der Spalten sollte
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)