CommencerCommencer gratuitement

Assemblage des colonnes

La dernière étape de la préparation des données consiste à regrouper toutes les colonnes prédictives dans une seule colonne.

Une version mise à jour des données de l'flights, qui tient compte de toutes les modifications apportées lors des exercices précédents, comporte les colonnes prédictives suivantes :

  • mon``dom et dow
  • carrier_idx (valeur indexée provenant de carrier)
  • org_idx (valeur indexée provenant de org)
  • km
  • depart
  • duration

Remarque : L'argument « truncate=False » de la méthode « show() » empêche les données d'être tronquées dans la sortie.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe qui assemblera les prédicteurs.
  • Veuillez créer un objet assembleur qui vous permettra de fusionner les colonnes des prédicteurs en une seule colonne.
  • Utilisez l'assembleur pour générer une nouvelle colonne consolidée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Modifier et exécuter le code