Hora de partida por faixa horária

Os dados sobre a hora do dia são um desafio para os modelos de regressão. Eles também são ótimos candidatos para agrupamento.

Nesta lição, você vai converter os horários de partida dos voos de valores numéricos entre 0 (que é 00:00) e 24 (que é 24:00) para valores agrupados. Depois, você pega esses valores agrupados e faz uma codificação one-hot.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

Crie um objeto bucketizer com limites de compartimento em 0, 3, 6, …, 24, que correspondem aos horários 0:00, 03:00, 06:00, …, 24:00. Especifique a coluna de entrada como “ depart ” e a coluna de saída como “ depart_bucket ”.
Organize os horários de partida nos dados do flights. Mostra os primeiros cinco valores para depart e depart_bucket.
Crie um objeto codificador one-hot, especificando “ depart_bucket ” como a coluna de entrada e “ depart_dummy ” como a coluna de saída.
Ajuste o codificador aos dados agrupados e, em seguida, use-o para transformar esses dados em variáveis fictícias. Mostra os cinco primeiros valores para depart, depart_bucket e depart_dummy.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.ml.feature import Bucketizer, OneHotEncoder

# Create buckets at 3 hour intervals through the day
buckets = ____(splits=[____], inputCol='____', outputCol='____')

# Bucket the departure times
bucketed = buckets.____(____)
bucketed.____('____', '____').____(____)

# Create a one-hot encoder
onehot = ____(inputCols=['____'], outputCols=['____'])

# One-hot encode the bucketed departure times
flights_onehot = ____.____(____).____(____)
flights_onehot.____('____', '____', '____').____(____)

Editar e executar o código