Ensamblar un vector
El último paso en Pipeline
es combinar todas las columnas que contienen nuestras características en una sola columna. Esto tiene que hacerse antes de que pueda tener lugar el modelado, porque todas las rutinas de modelado de Spark esperan que los datos estén en esta forma. Puedes hacerlo almacenando cada uno de los valores de una columna como una entrada en un vector. Entonces, desde el punto de vista del modelo, cada observación es un vector que contiene toda la información sobre ella y una etiqueta que indica al modelador a qué valor corresponde esa observación.
Por ello, el submódulo pyspark.ml.feature
contiene una clase llamada VectorAssembler
. Este Transformer
toma todas las columnas que especifiques y las combina en una nueva columna vectorial.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
Crea un
VectorAssembler
llamando aVectorAssembler()
con los nombresinputCols
como lista y el nombreoutputCol
"features"
.- La lista de columnas debe ser
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"]
.
- La lista de columnas debe ser
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)