Junções II
No PySpark, as junções são realizadas usando o método de DataFrames .join()
. Esse método recebe três argumentos. O primeiro é o segundo DataFrame que você deseja combinar com o primeiro. O segundo argumento, on
, é o nome da coluna-chave (ou colunas-chave) como uma string. O nome da coluna-chave (ou colunas-chave) deve ser o mesmo em cada tabela. O terceiro argumento, how
, especifica o tipo de junção a ser realizada. Neste curso, sempre usaremos o valor how="leftouter"
.
O conjunto de dados flights
e um novo conjunto de dados chamado airports
já estão em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Examine o DataFrame
airports
chamando.show()
. Observe qual coluna-chave permite que você junteairports
à tabelaflights
.Renomeie a coluna
faa
deairports
comodest
, reatribuindo o resultado deairports.withColumnRenamed("faa", "dest")
aairports
.Junte
flights
com o DataFrameairports
com base na colunadest
chamando o método.join()
comflights
. Salve o resultado comoflights_with_airports
.O primeiro argumento deve ser o outro DataFrame,
airports
.O argumento
on
deve ser a coluna-chave.O argumento
how
deve ser"leftouter"
.
Chame
.show()
comflights_with_airports
para examinar os dados novamente. Observe as novas informações que foram adicionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)