ComenzarEmpieza gratis

Ensamblar un vector

El último paso en Pipeline es combinar todas las columnas que contienen nuestras características en una sola columna. Esto tiene que hacerse antes de que pueda tener lugar el modelado, porque todas las rutinas de modelado de Spark esperan que los datos estén en esta forma. Puedes hacerlo almacenando cada uno de los valores de una columna como una entrada en un vector. Entonces, desde el punto de vista del modelo, cada observación es un vector que contiene toda la información sobre ella y una etiqueta que indica al modelador a qué valor corresponde esa observación.

Por ello, el submódulo pyspark.ml.feature contiene una clase llamada VectorAssembler. Este Transformer toma todas las columnas que especifiques y las combina en una nueva columna vectorial.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un VectorAssembler llamando a VectorAssembler() con los nombres inputCols como lista y el nombre outputCol "features" .

    • La lista de columnas debe ser ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Editar y ejecutar código