Unir vuelos con sus aeropuertos de destino
Te han contratado como ingeniero de datos en una empresa global de viajes. Tu primera tarea es ayudar a mejorar las operaciones analizando datos de vuelos. Tienes dos conjuntos de datos en tu espacio de trabajo: uno con detalles sobre los vuelos (flights) y otro con información sobre los aeropuertos de destino (airports), ambos ya disponibles en tu espacio de trabajo.
¿Tu objetivo? Combinar estos conjuntos para crear un dataset potente que relacione cada vuelo con su aeropuerto de destino.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Examina el DataFrame
airports. Identifica qué columna clave te permitirá unirairportscon la tablaflights. - Une
flightscon el DataFrameairportspor la columna"dest". Guarda el resultado comoflights_with_airports. - Vuelve a examinar
flights_with_airports. Fíjate en la nueva información que se ha añadido.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____