Junção dos DataFrames
Nos próximos dois capítulos, você vai trabalhar para criar um modelo que preveja se um voo atrasará ou não com base nos dados de voos com os quais estamos trabalhando. Esse modelo também incluirá informações sobre o avião que fez a rota. Portanto, a primeira etapa é combinar as duas tabelas: flights e planes!
Este exercicio faz parte do curso
Fundamentos do PySpark
Instruções do exercicio
- Primeiro, renomeie a coluna
yeardeplanesparaplane_yearpara evitar a duplicação de nomes de colunas. - Crie um novo DataFrame chamado
model_datafazendo a junção da tabelaflightscomplanesusando a colunatailnumcomo chave.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")