Assembla un vettore
L’ultimo passaggio della Pipeline è combinare tutte le colonne che contengono le nostre feature in un’unica colonna. Questo va fatto prima di poter creare il modello, perché ogni routine di modeling di Spark si aspetta i dati in questo formato. Puoi farlo memorizzando ciascun valore di una colonna come elemento di un vettore. Così, dal punto di vista del modello, ogni osservazione è un vettore che contiene tutte le sue informazioni e un’etichetta che indica al modeler a quale valore corrisponde quell’osservazione.
Per questo, il sottomodulo pyspark.ml.feature include una classe chiamata VectorAssembler. Questo Transformer prende tutte le colonne che specifichi e le combina in una nuova colonna vettoriale.
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Crea un
VectorAssemblerchiamandoVectorAssembler()passando i nomi ininputColscome lista e il nomeoutputCol"features".- L’elenco delle colonne deve essere
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].
- L’elenco delle colonne deve essere
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)