Ensamblar un vector
El último paso en Pipeline es combinar todas las columnas que contienen nuestras características en una sola columna. Esto tiene que hacerse antes de que pueda tener lugar el modelado, porque todas las rutinas de modelado de Spark esperan que los datos estén en esta forma. Puedes hacerlo almacenando cada uno de los valores de una columna como una entrada en un vector. Entonces, desde el punto de vista del modelo, cada observación es un vector que contiene toda la información sobre ella y una etiqueta que indica al modelador a qué valor corresponde esa observación.
Por ello, el submódulo pyspark.ml.feature contiene una clase llamada VectorAssembler. Este Transformer toma todas las columnas que especifiques y las combina en una nueva columna vectorial.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
Crea un
VectorAssemblerllamando aVectorAssembler()con los nombresinputColscomo lista y el nombreoutputCol"features".- La lista de columnas debe ser
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].
- La lista de columnas debe ser
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)