Assembler un vecteur
La dernière étape du site Pipeline
consiste à combiner toutes les colonnes contenant nos caractéristiques en une seule colonne. Cela doit être fait avant que la modélisation puisse avoir lieu, car chaque routine de modélisation de Spark s'attend à ce que les données soient sous cette forme. Vous pouvez le faire en stockant chacune des valeurs d'une colonne en tant qu'entrée d'un vecteur. Ensuite, du point de vue du modèle, chaque observation est un vecteur qui contient toutes les informations la concernant et une étiquette qui indique au modélisateur à quelle valeur correspond cette observation.
C'est pourquoi le sous-module pyspark.ml.feature
contient une classe appelée VectorAssembler
. Cette page Transformer
prend toutes les colonnes que vous avez spécifiées et les combine dans une nouvelle colonne vectorielle.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Créez un
VectorAssembler
en appelantVectorAssembler()
avec les nomsinputCols
sous forme de liste et le nomoutputCol
"features"
.- La liste des colonnes doit être
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"]
.
- La liste des colonnes doit être
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)