Junção dos DataFrames
Nos próximos dois capítulos, você vai trabalhar para criar um modelo que preveja se um voo atrasará ou não com base nos dados de voos com os quais estamos trabalhando. Esse modelo também incluirá informações sobre o avião que fez a rota. Portanto, a primeira etapa é combinar as duas tabelas: flights
e planes
!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Primeiro, renomeie a coluna
year
deplanes
paraplane_year
para evitar a duplicação de nomes de colunas. - Crie um novo DataFrame chamado
model_data
fazendo a junção da tabelaflights
complanes
usando a colunatailnum
como chave.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")