ComeçarComece de graça

Junção dos DataFrames

Nos próximos dois capítulos, você vai trabalhar para criar um modelo que preveja se um voo atrasará ou não com base nos dados de voos com os quais estamos trabalhando. Esse modelo também incluirá informações sobre o avião que fez a rota. Portanto, a primeira etapa é combinar as duas tabelas: flights e planes!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Primeiro, renomeie a coluna year de planes para plane_year para evitar a duplicação de nomes de colunas.
  • Crie um novo DataFrame chamado model_data fazendo a junção da tabela flights com planes usando a coluna tailnum como chave.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Editar e executar o código