ComeçarComece de graça

Colunas categóricas

Nos dados dos voos, há duas colunas, carrier e org, que contêm dados categóricos. Você precisa transformar essas colunas em valores numéricos indexados.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Importe a classe apropriada e crie um objeto indexador para transformar a coluna carrier de uma cadeia de caracteres em um índice numérico.
  • Prepare o objeto indexador nos dados do voo.
  • Use o indexador preparado para criar a coluna de índice numérico.
  • Repita o processo para a coluna org.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Editar e executar o código