Codificación del origen del vuelo
La columna « org
» (Aeropuerto de origen) de los datos de vuelos es una variable categórica que indica el aeropuerto desde el que sale un vuelo.
- ORD — Aeropuerto Internacional O'Hare (Chicago)
- SFO — Aeropuerto Internacional de San Francisco
- JFK — Aeropuerto Internacional John F. Kennedy (Nueva York)
- LGA — Aeropuerto La Guardia (Nueva York)
- SMF — Sacramento
- SJC — San José
- OGG — Kahului (Hawái)
Obviamente, esto es solo una pequeña parte de los aeropuertos. Sin embargo, dado que se trata de una variable categórica, es necesario codificarla con codificación one-hot antes de poder utilizarla en un modelo de regresión.
Los datos se encuentran en una variable llamada « flights
». Ya has utilizado un indexador de cadenas para crear una columna de valores indexados correspondientes a las cadenas de org
.
Puede resultarte útil revisar las diapositivas de las lecciones en el panel Slides (Diapositivas) junto al terminal IPython.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa la clase del codificador one-hot.
- Crea una instancia de codificador one-hot, nombrando la columna de entrada
org_idx
y la columna de salidaorg_dummy
. - Aplica el codificador one-hot a los datos de los vuelos.
- Genera un resumen de la asignación de valores categóricos a variables ficticias codificadas en binario. Incluye solo valores únicos y ordena por
org_idx
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()