CommencerCommencer gratuitement

Assemblage des colonnes

La dernière étape de la préparation des données consiste à consolider toutes les colonnes de prédicteurs en une seule colonne.

Une version actualisée des données flights, qui tient compte de tous les changements intervenus au cours des exercices précédents, comporte les colonnes de prédicteurs suivantes :

  • mon, dom et dow
  • carrier_idx (valeur indexée de carrier)
  • org_idx (valeur indexée de org)
  • km
  • depart
  • duration

Remarque : L'argument truncate=False de la méthode show() permet d'éviter que les données soient tronquées dans la sortie.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe qui assemblera les prédicteurs.
  • Créez un objet assembleur qui vous permettra de fusionner les colonnes de prédicteurs en une seule colonne.
  • Utilisez l'assembleur pour générer une nouvelle colonne consolidée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Modifier et exécuter le code