IniziaInizia gratis

Assemblare le colonne

L’ultima fase della preparazione dei dati consiste nel consolidare tutte le colonne dei predittori in un’unica colonna.

Una versione aggiornata dei dati flights, che tiene conto di tutte le modifiche degli esercizi precedenti, include le seguenti colonne predittore:

  • mon, dom e dow
  • carrier_idx (valore indicizzato da carrier)
  • org_idx (valore indicizzato da org)
  • km
  • depart
  • duration

Nota: L’argomento truncate=False nel metodo show() impedisce che i dati vengano troncati nell’output.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe che assemblerà i predittori.
  • Crea un oggetto assembler che ti permetta di unire le colonne dei predittori in un’unica colonna.
  • Usa l’assembler per generare una nuova colonna consolidata.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Modifica ed esegui il codice