IniziaInizia gratis

Assembla un vettore

L’ultimo passaggio della Pipeline è combinare tutte le colonne che contengono le nostre feature in un’unica colonna. Questo va fatto prima di poter creare il modello, perché ogni routine di modeling di Spark si aspetta i dati in questo formato. Puoi farlo memorizzando ciascun valore di una colonna come elemento di un vettore. Così, dal punto di vista del modello, ogni osservazione è un vettore che contiene tutte le sue informazioni e un’etichetta che indica al modeler a quale valore corrisponde quell’osservazione.

Per questo, il sottomodulo pyspark.ml.feature include una classe chiamata VectorAssembler. Questo Transformer prende tutte le colonne che specifichi e le combina in una nuova colonna vettoriale.

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un VectorAssembler chiamando VectorAssembler() passando i nomi in inputCols come lista e il nome outputCol "features".
    • L’elenco delle colonne deve essere ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Modifica ed esegui il codice