Codificação da origem do voo
A coluna org
nos dados de voos é uma variável categórica que fornece o aeroporto de onde um voo parte.
- ORD - Aeroporto Internacional O'Hare (Chicago)
- SFO - Aeroporto Internacional de São Francisco
- JFK - Aeroporto Internacional John F Kennedy (Nova York)
- LGA - Aeroporto La Guardia (Nova York)
- SMF — Sacramento
- SJC - São José
- OGG — Kahului (Hawaii)
Obviamente, esse é apenas um pequeno subconjunto de aeroportos. No entanto, como se trata de uma variável categórica, ela precisa ser codificada em um ponto antes de poder ser usada em um modelo de regressão.
Os dados estão em uma variável chamada flights
. Você já usou um indexador de cadeia de caracteres para criar uma coluna de valores indexados correspondentes às cadeias de caracteres em org
.
Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Importe a classe de codificador de um ponto.
- Crie uma instância de codificador de um único disparo, nomeando a coluna de entrada como
org_idx
e a coluna de saída comoorg_dummy
. - Aplique o codificador de um ponto aos dados dos voos.
- Gerar um resumo do mapeamento de valores categóricos para variáveis fictícias codificadas em binário. Inclua apenas valores exclusivos e ordene por
org_idx
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()