Bir DataFrame'i Parquet formatında kaydetme
Spark ile çalışırken çoğunlukla CSV, JSON veya diğer veri kaynaklarıyla başlarsın. Bu, yüklenecek veri türleri açısından büyük esneklik sağlar; ancak Spark için en uygun format değildir. Parquet formatı sütun bazlı bir veri deposudur ve Spark'ın predicate pushdown kullanmasına olanak tanır. Bu da, Spark'ın tüm veri kümesini okumak yerine yalnızca tanımladığın işlemleri tamamlamak için gereken veriyi işleyeceği anlamına gelir. Bu sayede Spark veriye erişimde daha esnek olur ve özellikle büyük veri kümelerinde performansı ciddi ölçüde artırır.
Bu egzersizde, yeni bir Parquet dosyası oluşturmayı ve ardından ondan bazı verileri işlemeyi pratik yapacağız.
spark nesnesi ile df1 ve df2 DataFrame'leri senin için hazırlandı.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
df1vedf2satır sayılarını görüntüle.unionmetoduyladf1vedf2'yi birleştiripdf3adlı yeni bir DataFrame oluştur.df3'üAA_DFW_ALL.parquetadlı birparquetdosyasına kaydet.AA_DFW_ALL.parquetdosyasını oku ve sayısını göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())
# Combine the DataFrames into one
df3 = df1.union(df2)
# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')
# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())