Montaje de columnas
La etapa final de la preparación de los datos consiste en consolidar todas las columnas de los predictores en una sola columna.
Una versión actualizada de los datos de flights
, que tiene en cuenta todos los cambios de los ejercicios anteriores, tiene las siguientes columnas predictoras:
mon
,dom
ydow
carrier_idx
(valor indexado decarrier
)org_idx
(valor indexado deorg
)km
depart
duration
Nota: El argumento truncate=False
del método show()
evita que los datos se trunquen en la salida.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Importa la clase que reunirá los predictores.
- Crea un objeto ensamblador que te permita unir las columnas de los predictores en una sola columna.
- Utiliza el ensamblador para generar una nueva columna consolidada.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)