Colunas categóricas
Nos dados dos voos, tem duas colunas, “ carrier
” e “ org
”, que têm dados categóricos. Você precisa transformar essas colunas em valores numéricos indexados.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa a classe certa e cria um objeto indexador pra transformar a coluna “
carrier
” de uma string pra um índice numérico. - Prepare o objeto indexador nos dados de voo.
- Use o indexador que você preparou pra criar a coluna de índice numérico.
- Repita o processo para a coluna “
org
”.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)