Codificação da origem do voo
A coluna org nos dados de voos é uma variável categórica que fornece o aeroporto de onde um voo parte.
- ORD - Aeroporto Internacional O'Hare (Chicago)
- SFO - Aeroporto Internacional de São Francisco
- JFK - Aeroporto Internacional John F Kennedy (Nova York)
- LGA - Aeroporto La Guardia (Nova York)
- SMF - Sacramento
- SJC - São José
- OGG — Kahului (Hawaii)
Obviamente, esse é apenas um pequeno subconjunto de aeroportos. No entanto, como essa é uma variável categórica, ela precisa ser codificada em um único ponto antes de ser usada em um modelo de regressão.
Os dados estão em uma variável chamada flights. Você já usou um indexador de cadeia de caracteres para criar uma coluna de valores indexados correspondentes às cadeias de caracteres em org.
Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Importe a classe de codificador de um ponto.
- Crie uma instância de codificador de um único disparo, nomeando a coluna de entrada como
org_idxe a coluna de saída comoorg_dummy. - Aplique o codificador de um ponto aos dados dos voos.
- Gerar um resumo do mapeamento de valores categóricos para variáveis fictícias codificadas em binário. Inclua apenas valores exclusivos e ordene por
org_idx.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()