Assemblage des colonnes
La dernière étape de la préparation des données consiste à consolider toutes les colonnes de prédicteurs en une seule colonne.
Une version actualisée des données flights, qui tient compte de tous les changements intervenus au cours des exercices précédents, comporte les colonnes de prédicteurs suivantes :
mon,dometdowcarrier_idx(valeur indexée decarrier)org_idx(valeur indexée deorg)kmdepartduration
Remarque : L'argument truncate=False de la méthode show() permet d'éviter que les données soient tronquées dans la sortie.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe qui assemblera les prédicteurs.
- Créez un objet assembleur qui vous permettra de fusionner les colonnes de prédicteurs en une seule colonne.
- Utilisez l'assembleur pour générer une nouvelle colonne consolidée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)