Montaje de columnas
La etapa final de la preparación de los datos consiste en consolidar todas las columnas de los predictores en una sola columna.
Una versión actualizada de los datos de flights, que tiene en cuenta todos los cambios de los ejercicios anteriores, tiene las siguientes columnas predictoras:
mon,domydowcarrier_idx(valor indexado decarrier)org_idx(valor indexado deorg)kmdepartduration
Nota: El argumento truncate=False del método show() evita que los datos se trunquen en la salida.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase que reunirá los predictores.
- Crea un objeto ensamblador que te permita unir las columnas de los predictores en una sola columna.
- Utiliza el ensamblador para generar una nueva columna consolidada.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)