Salvando um DataFrame no formato Parquet

Ao trabalhar com o Spark, você geralmente começa com CSV, JSON, ou outras fontes de dados. Isso proporciona muita flexibilidade para os tipos de dados a serem carregados, mas não é o formato ideal para o Spark. O formato Parquet é um armazenamento de dados colunar, permitindo que o Spark use o predicado pushdown. Isso significa que o Spark processará apenas os dados necessários para concluir as operações que você definir, em vez de ler todo o conjunto de dados. Isso dá ao Spark mais flexibilidade no acesso aos dados e, muitas vezes, melhora drasticamente o desempenho em grandes conjuntos de dados.

Neste exercício, vamos praticar a criação de um novo arquivo Parquet e, em seguida, processar alguns dados a partir dele.

O objeto spark e os DataFrames df1 e df2 foram configurados para você.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

Veja a contagem de linhas de df1 e df2.
Combine df1 e df2 em um novo DataFrame chamado df3 com o método union.
Salve df3 em um arquivo parquet chamado AA_DFW_ALL.parquet.
Leia o arquivo AA_DFW_ALL.parquet e mostre a contagem.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())

# Combine the DataFrames into one
df3 = df1.union(df2)

# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')

# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())

Editar e executar o código