Codificação da origem do voo
A coluna “ org
” nos dados dos voos é uma variável categórica que mostra o aeroporto de onde sai um voo.
- ORD — Aeroporto Internacional O'Hare (Chicago)
- SFO — Aeroporto Internacional de São Francisco
- JFK — Aeroporto Internacional John F. Kennedy (Nova York)
- LGA — Aeroporto La Guardia (Nova York)
- SMF — Sacramento
- SJC — São José
- OGG — Kahului (Hawaii)
Claro que isso é só uma pequena parte dos aeroportos. Mas, como essa é uma variável categórica, ela precisa ser codificada como one-hot antes de poder ser usada num modelo de regressão.
Os dados estão numa variável chamada “ flights
”. Você já usou um indexador de string para criar uma coluna de valores indexados que correspondem às strings em org
.
Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa a classe do codificador one-hot.
- Crie uma instância do codificador one-hot, nomeando a coluna de entrada como “
org_idx
” e a coluna de saída como “org_dummy
”. - Aplique o codificador one-hot aos dados dos voos.
- Crie um resumo do mapeamento de valores categóricos para variáveis fictícias codificadas em binário. Inclua só valores únicos e ordene por
org_idx
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()