Salvando um DataFrame no formato Parquet
Ao trabalhar com o Spark, você geralmente começa com CSV, JSON, ou outras fontes de dados. Isso proporciona muita flexibilidade para os tipos de dados a serem carregados, mas não é o formato ideal para o Spark. O formato Parquet
é um armazenamento de dados colunar, permitindo que o Spark use o predicado pushdown. Isso significa que o Spark processará apenas os dados necessários para concluir as operações que você definir, em vez de ler todo o conjunto de dados. Isso dá ao Spark mais flexibilidade no acesso aos dados e, muitas vezes, melhora drasticamente o desempenho em grandes conjuntos de dados.
Neste exercício, vamos praticar a criação de um novo arquivo Parquet e, em seguida, processar alguns dados a partir dele.
O objeto spark
e os DataFrames df1
e df2
foram configurados para você.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Veja a contagem de linhas de
df1
edf2
. - Combine
df1
edf2
em um novo DataFrame chamadodf3
com o métodounion
. - Salve
df3
em um arquivoparquet
chamadoAA_DFW_ALL.parquet
. - Leia o arquivo
AA_DFW_ALL.parquet
e mostre a contagem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())
# Combine the DataFrames into one
df3 = df1.union(df2)
# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')
# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())