Assemblare le colonne
L’ultima fase della preparazione dei dati consiste nel consolidare tutte le colonne dei predittori in un’unica colonna.
Una versione aggiornata dei dati flights, che tiene conto di tutte le modifiche degli esercizi precedenti, include le seguenti colonne predittore:
mon,domedowcarrier_idx(valore indicizzato dacarrier)org_idx(valore indicizzato daorg)kmdepartduration
Nota: L’argomento truncate=False nel metodo show() impedisce che i dati vengano troncati nell’output.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa la classe che assemblerà i predittori.
- Crea un oggetto assembler che ti permetta di unire le colonne dei predittori in un’unica colonna.
- Usa l’assembler per generare una nuova colonna consolidata.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)