Columnas categóricas
En los datos de los vuelos hay dos columnas, carrier
y org
, que contienen datos categóricos. Necesitas transformar esas columnas en valores numéricos indexados.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Importa la clase adecuada y crea un objeto indexador para transformar la columna
carrier
de una cadena a un índice numérico. - Prepara el objeto indexador sobre los datos de vuelo.
- Utiliza el indexador preparado para crear la columna de índice numérico.
- Repite el proceso para la columna
org
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)