Erste SchritteKostenlos loslegen

Einen Vektor erstellen

Der letzte Schritt in der Pipeline besteht darin, alle Spalten, die unsere Merkmale enthalten, zu einer einzigen Spalte zusammenzufassen. Dies muss vor der Modellerstellung geschehen, da jede Spark-Modellerstellungsroutine erwartet, dass die Daten in dieser Form vorliegen. Dies kann erreicht werden, indem jeder Wert einer Spalte als Eintrag in einem Vektor gespeichert wird. Aus der Sicht des Modells ist dann jede Beobachtung ein Vektor, der alle Informationen über sie enthält, und ein Label, das dem Modellierer sagt, welchem Wert diese Beobachtung entspricht.

Aus diesem Grund enthält das Untermodul pyspark.ml.feature eine Klasse namens VectorAssembler. Dieser Transformer nimmt alle von dir angegebenen Spalten und kombiniert sie zu einer neuen Vektorspalte.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen VectorAssembler, indem du VectorAssembler() mit den inputCols Namen als Liste und dem outputCol Namen "features" aufrufst.

    • Die Liste der Spalten sollte ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"] sein.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Bearbeiten und Ausführen von Code