Hora de salida del cubo
Los datos de la hora del día son un reto con los modelos de regresión. También son un gran candidato para la cubicación.
En esta lección convertirás las horas de salida de los vuelos de valores numéricos comprendidos entre 0 (correspondiente a las 00:00) y 24 (correspondiente a las 24:00) a valores agrupados. A continuación, tomarás esos valores binarizados y los codificarás en un solo paso.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Crea un objeto bucketizador con los límites de los contenedores en 0, 3, 6, …, 24, que corresponden a las horas 0:00, 03:00, 06:00, …, 24:00. Especifica la columna de entrada como
depart
y la de salida comodepart_bucket
. - Recoge las horas de salida en los datos de
flights
. Muestra los cinco primeros valores dedepart
ydepart_bucket
. - Crea un objeto codificador de un disparo. Especifica la columna de salida como
depart_dummy
. - Entrena el codificador con los datos y utilízalo para convertir las horas de salida en cubos en variables ficticias. Muestra los cinco primeros valores de
depart
,depart_bucket
ydepart_dummy
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
from pyspark.ml.feature import Bucketizer, OneHotEncoder
# Create buckets at 3 hour intervals through the day
buckets = ____(splits=____, ____, ____)
# Bucket the departure times
bucketed = buckets.____(____)
bucketed.____(____).____(____)
# Create a one-hot encoder
onehot = ____(inputCols=[____], ____)
# One-hot encode the bucketed departure times
flights_onehot = ____.____(____).____(____)
flights_onehot.____(____).____(____)