ComeçarComece de graça

Junções II

No PySpark, as junções são realizadas usando o método de DataFrames .join(). Esse método recebe três argumentos. O primeiro é o segundo DataFrame que você deseja combinar com o primeiro. O segundo argumento, on, é o nome da coluna-chave (ou colunas-chave) como uma string. O nome da coluna-chave (ou colunas-chave) deve ser o mesmo em cada tabela. O terceiro argumento, how, especifica o tipo de junção a ser realizada. Neste curso, sempre usaremos o valor how="leftouter".

O conjunto de dados flights e um novo conjunto de dados chamado airports já estão em seu espaço de trabalho.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Examine o DataFrame airports chamando .show(). Observe qual coluna-chave permite que você junte airports à tabela flights.

  • Renomeie a coluna faa de airports como dest, reatribuindo o resultado de airports.withColumnRenamed("faa", "dest") a airports.

  • Junte flights com o DataFrame airports com base na coluna dest chamando o método .join() com flights. Salve o resultado como flights_with_airports.

    • O primeiro argumento deve ser o outro DataFrame, airports.

    • O argumento on deve ser a coluna-chave.

    • O argumento how deve ser "leftouter".

  • Chame .show() com flights_with_airports para examinar os dados novamente. Observe as novas informações que foram adicionadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Editar e executar o código