Aan de slagGa gratis aan de slag

Stel een vector samen

De laatste stap in de Pipeline is om alle kolommen met onze features samen te voegen tot één kolom. Dit moet gebeuren voordat je kunt modelleren, omdat elke Spark-modelleerprocedure verwacht dat de gegevens deze vorm hebben. Je kunt dit doen door elke waarde uit een kolom op te slaan als een element in een vector. Vanuit het model gezien is elke observatie dan een vector met alle bijbehorende informatie en een label dat aangeeft aan welke waarde die observatie overeenkomt.

Daarom bevat de submodule pyspark.ml.feature een klasse genaamd VectorAssembler. Deze Transformer neemt alle door jou opgegeven kolommen en voegt ze samen tot een nieuwe vectorkolom.

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Maak een VectorAssembler door VectorAssembler() aan te roepen met de inputCols-namen als een lijst en de outputCol-naam "features".
    • De lijst met kolommen moet zijn: ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Code bewerken en uitvoeren