Montaje de columnas
La etapa final de la preparación de datos consiste en consolidar todas las columnas predictivas en una sola columna.
Una versión actualizada de los datos « flights », que tiene en cuenta todos los cambios introducidos en los últimos ejercicios, incluye las siguientes columnas predictivas:
mon,domydowcarrier_idx(valor indexado decarrier)org_idx(valor indexado deorg)kmdepartduration
Nota: El argumento « truncate=False » del método « show() » evita que los datos se trunquen en la salida.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase que ensamblará los predictores.
- Crea un objeto ensamblador que te permita fusionar las columnas de predictores en una sola columna.
- Utiliza el ensamblador para generar una nueva columna consolidada.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)