ComeçarComece de graça

Codificação da origem do voo

A coluna “ org ” nos dados dos voos é uma variável categórica que mostra o aeroporto de onde sai um voo.

  • ORD — Aeroporto Internacional O'Hare (Chicago)
  • SFO — Aeroporto Internacional de São Francisco
  • JFK — Aeroporto Internacional John F. Kennedy (Nova York)
  • LGA — Aeroporto La Guardia (Nova York)
  • SMF — Sacramento
  • SJC — São José
  • OGG — Kahului (Hawaii)

Claro que isso é só uma pequena parte dos aeroportos. Mas, como essa é uma variável categórica, ela precisa ser codificada como one-hot antes de poder ser usada num modelo de regressão.

Os dados estão numa variável chamada “ flights ”. Você já usou um indexador de string para criar uma coluna de valores indexados que correspondem às strings em org.

Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Importa a classe do codificador one-hot.
  • Crie uma instância do codificador one-hot, nomeando a coluna de entrada como “ org_idx ” e a coluna de saída como “ org_dummy ”.
  • Aplique o codificador one-hot aos dados dos voos.
  • Crie um resumo do mapeamento de valores categóricos para variáveis fictícias codificadas em binário. Inclua só valores únicos e ordene por org_idx.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Editar e executar o código