Colunas categóricas
Nos dados dos voos, há duas colunas, carrier
e org
, que contêm dados categóricos. Você precisa transformar essas colunas em valores numéricos indexados.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Importe a classe apropriada e crie um objeto indexador para transformar a coluna
carrier
de uma cadeia de caracteres em um índice numérico. - Prepare o objeto indexador nos dados do voo.
- Use o indexador preparado para criar a coluna de índice numérico.
- Repita o processo para a coluna
org
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)