ComenzarEmpieza gratis

Hora de salida del cubo

Los datos de la hora del día son un reto con los modelos de regresión. También son un gran candidato para la cubicación.

En esta lección convertirás las horas de salida de los vuelos de valores numéricos comprendidos entre 0 (correspondiente a las 00:00) y 24 (correspondiente a las 24:00) a valores agrupados. A continuación, tomarás esos valores binarizados y los codificarás en un solo paso.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un objeto bucketizador con los límites de los contenedores en 0, 3, 6, …, 24, que corresponden a las horas 0:00, 03:00, 06:00, …, 24:00. Especifica la columna de entrada como depart y la de salida como depart_bucket.
  • Recoge las horas de salida en los datos de flights. Muestra los cinco primeros valores de depart y depart_bucket.
  • Crea un objeto codificador de un disparo. Especifica la columna de salida como depart_dummy.
  • Entrena el codificador con los datos y utilízalo para convertir las horas de salida en cubos en variables ficticias. Muestra los cinco primeros valores de depart, depart_bucket y depart_dummy.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

from pyspark.ml.feature import Bucketizer, OneHotEncoder

# Create buckets at 3 hour intervals through the day
buckets = ____(splits=____, ____, ____)

# Bucket the departure times
bucketed = buckets.____(____)
bucketed.____(____).____(____)

# Create a one-hot encoder
onehot = ____(inputCols=[____], ____)

# One-hot encode the bucketed departure times
flights_onehot = ____.____(____).____(____)
flights_onehot.____(____).____(____)
Editar y ejecutar código