Columnas categóricas
En los datos de vuelos hay dos columnas, « carrier
» y « org
», que contienen datos categóricos. Debes transformar esas columnas en valores numéricos indexados.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase adecuada y crea un objeto indexador para transformar la columna «
carrier
» de una cadena a un índice numérico. - Prepara el objeto indexador en los datos de vuelo.
- Utiliza el indexador preparado para crear la columna de índice numérico.
- Repite el proceso para la columna «
org
».
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)