Assemblage des colonnes
La dernière étape de la préparation des données consiste à regrouper toutes les colonnes prédictives dans une seule colonne.
Une version mise à jour des données de l'flights
, qui tient compte de toutes les modifications apportées lors des exercices précédents, comporte les colonnes prédictives suivantes :
mon``dom
etdow
carrier_idx
(valeur indexée provenant decarrier
)org_idx
(valeur indexée provenant deorg
)km
depart
duration
Remarque : L'argument « truncate=False
» de la méthode « show()
» empêche les données d'être tronquées dans la sortie.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe qui assemblera les prédicteurs.
- Veuillez créer un objet assembleur qui vous permettra de fusionner les colonnes des prédicteurs en une seule colonne.
- Utilisez l'assembleur pour générer une nouvelle colonne consolidée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)