Unir los DataFrames
En los dos próximos capítulos trabajarás para construir un modelo que prediga si un vuelo se retrasará o no basándose en los datos de los vuelos con los que hemos estado trabajando. ¡Este modelo también incluirá información sobre el avión que realizó la ruta, por lo que el primer paso es unir las dos tablas: flights
y planes
!
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
- En primer lugar, cambia el nombre de la columna
year
deplanes
aplane_year
para evitar duplicar los nombres de las columnas. - Crea un nuevo DataFrame llamado
model_data
uniendo la tablaflights
conplanes
utilizando la columnatailnum
como clave.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")