Codificación del origen del vuelo
La columna org
de los datos de vuelos es una variable categórica que indica el aeropuerto del que sale un vuelo.
- ORD - Aeropuerto Internacional O'Hare (Chicago)
- SFO — San Francisco International Airport
- JFK - Aeropuerto Internacional John F Kennedy (Nueva York)
- LGA - Aeropuerto de La Guardia (Nueva York)
- SMF - Sacramento
- SJC - San José
- OGG — Kahului (Hawaii)
Obviamente, esto es sólo un pequeño subconjunto de aeropuertos. Sin embargo, al tratarse de una variable categórica, es necesario codificarla en un punto antes de poder utilizarla en un modelo de regresión.
Los datos están en una variable llamada flights
. Ya has utilizado un indexador de cadenas para crear una columna de valores indexados correspondientes a las cadenas de org
.
Puede que te resulte útil revisar las diapositivas de las lecciones en el panel Diapositivas, junto a la Cáscara de Python.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Importa la clase codificador de un disparo.
- Crea una instancia de codificador de un disparo, nombrando la columna de entrada
org_idx
y la columna de salidaorg_dummy
. - Aplica el codificador de un disparo a los datos de los vuelos.
- Genera un resumen de la asignación de valores categóricos a variables ficticias codificadas en binario. Incluye sólo valores únicos y ordénalos por
org_idx
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import the one hot encoder class
from pyspark.ml.____ import ____
# Create an instance of the one hot encoder
onehot = ____(inputCols=[____], outputCols=[____])
# Apply the one hot encoder to the flights data
onehot = onehot.____(____)
flights_onehot = onehot.____(____)
# Check the results
flights_onehot.____('org', 'org_idx', 'org_dummy').____().____('org_idx').show()