ComenzarEmpieza gratis

Columnas categóricas

En los datos de los vuelos hay dos columnas, carrier y org, que contienen datos categóricos. Necesitas transformar esas columnas en valores numéricos indexados.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Importa la clase adecuada y crea un objeto indexador para transformar la columna carrier de una cadena a un índice numérico.
  • Prepara el objeto indexador sobre los datos de vuelo.
  • Utiliza el indexador preparado para crear la columna de índice numérico.
  • Repite el proceso para la columna org.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Editar y ejecutar código