ComeçarComece de graça

Codificação da origem do voo

A coluna org nos dados de voos é uma variável categórica que fornece o aeroporto de onde um voo parte.

  • ORD - Aeroporto Internacional O'Hare (Chicago)
  • SFO - Aeroporto Internacional de São Francisco
  • JFK - Aeroporto Internacional John F Kennedy (Nova York)
  • LGA - Aeroporto La Guardia (Nova York)
  • SMF - Sacramento
  • SJC - São José
  • OGG — Kahului (Hawaii)

Obviamente, esse é apenas um pequeno subconjunto de aeroportos. No entanto, como essa é uma variável categórica, ela precisa ser codificada em um único ponto antes de ser usada em um modelo de regressão.

Os dados estão em uma variável chamada flights. Você já usou um indexador de cadeia de caracteres para criar uma coluna de valores indexados correspondentes às cadeias de caracteres em org.

Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Importe a classe de codificador de um ponto.
  • Crie uma instância de codificador de um único disparo, nomeando a coluna de entrada como org_idx e a coluna de saída como org_dummy.
  • Aplique o codificador de um ponto aos dados dos voos.
  • Gerar um resumo do mapeamento de valores categóricos para variáveis fictícias codificadas em binário. Inclua apenas valores exclusivos e ordene por org_idx.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the one hot encoder class
from pyspark.ml.____ import ____

# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])

# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)

# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()
Editar e executar o código