ComenzarEmpieza gratis

Montaje de columnas

La etapa final de la preparación de datos consiste en consolidar todas las columnas predictivas en una sola columna.

Una versión actualizada de los datos « flights », que tiene en cuenta todos los cambios introducidos en los últimos ejercicios, incluye las siguientes columnas predictivas:

  • mon, dom y dow
  • carrier_idx (valor indexado de carrier)
  • org_idx (valor indexado de org)
  • km
  • depart
  • duration

Nota: El argumento « truncate=False » del método « show() » evita que los datos se trunquen en la salida.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Importa la clase que ensamblará los predictores.
  • Crea un objeto ensamblador que te permita fusionar las columnas de predictores en una sola columna.
  • Utiliza el ensamblador para generar una nueva columna consolidada.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Editar y ejecutar código