Comece agoraComece grátis

Junção dos DataFrames

Nos próximos dois capítulos, você vai trabalhar para criar um modelo que preveja se um voo atrasará ou não com base nos dados de voos com os quais estamos trabalhando. Esse modelo também incluirá informações sobre o avião que fez a rota. Portanto, a primeira etapa é combinar as duas tabelas: flights e planes!

Este exercicio faz parte do curso

Fundamentos do PySpark

Ver curso

Instruções do exercicio

  • Primeiro, renomeie a coluna year de planes para plane_year para evitar a duplicação de nomes de colunas.
  • Crie um novo DataFrame chamado model_data fazendo a junção da tabela flights com planes usando a coluna tailnum como chave.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Editar e Executar Código