Junções
Outra operação de dados muito comum é a junção. As junções constituem um tema à parte, portanto, neste curso, veremos apenas as junções simples. Se quiser saber mais sobre junções, você pode dar uma olhada aqui.
Uma junção combina duas tabelas diferentes com base em uma coluna que elas têm em comum. Essa coluna é chamada de chave. Exemplos de chaves aqui incluem as colunas tailnum
e carrier
da tabela flights
.
Por exemplo: suponha que você queira mais informações sobre o avião que realizou um voo do que apenas a matrícula de identificação (tail number). Essas informações não constam na tabela flights
porque o mesmo avião faz muitos voos diferentes ao longo de dois anos. Portanto, incluir essas informações em cada linha resultaria em muita duplicação. Para evitar isso, deve ser criada uma segunda tabela com apenas uma linha para cada avião, cujas colunas listam todas as informações sobre o avião, inclusive a matrícula de identificação. Você pode chamar essa tabela de planes
.
Ao fazer a junção da tabela flights
com essa tabela de informações do avião, você deve adicionar todas as colunas da tabela planes
à tabela flights
. Para preencher essas colunas com informações, você deve examinar a matrícula de identificação (tail number) da tabela flights
e encontrar o valor correspondente na tabela planes
e, em seguida, usar essa linha para preencher todas as novas colunas.
Você vai obter uma tabela muito maior do que antes, mas agora cada linha tem todas as informações sobre o avião que fez aquele voo!
Qual das opções a seguir não é verdadeira?
Este exercício faz parte do curso
Introdução ao PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
