Montaje de columnas
La etapa final de la preparación de datos consiste en consolidar todas las columnas predictivas en una sola columna.
Una versión actualizada de los datos « flights
», que tiene en cuenta todos los cambios introducidos en los últimos ejercicios, incluye las siguientes columnas predictivas:
mon
,dom
ydow
carrier_idx
(valor indexado decarrier
)org_idx
(valor indexado deorg
)km
depart
duration
Nota: El argumento « truncate=False
» del método « show()
» evita que los datos se trunquen en la salida.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase que ensamblará los predictores.
- Crea un objeto ensamblador que te permita fusionar las columnas de predictores en una sola columna.
- Utiliza el ensamblador para generar una nueva columna consolidada.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)