ComenzarEmpieza gratis

Unir los DataFrames

En los dos próximos capítulos trabajarás para construir un modelo que prediga si un vuelo se retrasará o no basándose en los datos de los vuelos con los que hemos estado trabajando. ¡Este modelo también incluirá información sobre el avión que realizó la ruta, por lo que el primer paso es unir las dos tablas: flights y planes!

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • En primer lugar, cambia el nombre de la columna year de planes a plane_year para evitar duplicar los nombres de las columnas.
  • Crea un nuevo DataFrame llamado model_data uniendo la tabla flights con planes utilizando la columna tailnum como clave.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Editar y ejecutar código