Assemblage des colonnes
La dernière étape de la préparation des données consiste à consolider toutes les colonnes de prédicteurs en une seule colonne.
Une version actualisée des données flights, qui tient compte de tous les changements intervenus au cours des exercices précédents, comporte les colonnes de prédicteurs suivantes :
mon,dometdowcarrier_idx(valeur indexée decarrier)org_idx(valeur indexée deorg)kmdepartduration
Remarque : L'argument truncate=False de la méthode show() permet d'éviter que les données soient tronquées dans la sortie.
Cet exercice fait partie du cours
<cours>Apprentissage automatique avec PySpark</cours>Instructions de l’exercice
- Importez la classe qui assemblera les prédicteurs.
- Créez un objet assembleur qui vous permettra de fusionner les colonnes de prédicteurs en une seule colonne.
- Utilisez l'assembleur pour générer une nouvelle colonne consolidée.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)