CommencerCommencer gratuitement

Assembler un vecteur

La dernière étape du site Pipeline consiste à combiner toutes les colonnes contenant nos caractéristiques en une seule colonne. Cela doit être fait avant que la modélisation puisse avoir lieu, car chaque routine de modélisation de Spark s'attend à ce que les données soient sous cette forme. Vous pouvez le faire en stockant chacune des valeurs d'une colonne en tant qu'entrée d'un vecteur. Ensuite, du point de vue du modèle, chaque observation est un vecteur qui contient toutes les informations la concernant et une étiquette qui indique au modélisateur à quelle valeur correspond cette observation.

C'est pourquoi le sous-module pyspark.ml.feature contient une classe appelée VectorAssembler. Cette page Transformer prend toutes les colonnes que vous avez spécifiées et les combine dans une nouvelle colonne vectorielle.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez un VectorAssembler en appelant VectorAssembler() avec les noms inputCols sous forme de liste et le nom outputCol "features" .

    • La liste des colonnes doit être ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Modifier et exécuter le code