Junção dos DataFrames
Nos próximos dois capítulos, você vai trabalhar para criar um modelo que preveja se um voo atrasará ou não com base nos dados de voos com os quais estamos trabalhando. Esse modelo também incluirá informações sobre o avião que fez a rota. Portanto, a primeira etapa é combinar as duas tabelas: flights e planes!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Primeiro, renomeie a coluna
yeardeplanesparaplane_yearpara evitar a duplicação de nomes de colunas. - Crie um novo DataFrame chamado
model_datafazendo a junção da tabelaflightscomplanesusando a colunatailnumcomo chave.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")