Bir DataFrame'i Parquet formatında kaydetme
Spark ile çalışırken çoğunlukla CSV, JSON veya diğer veri kaynaklarıyla başlarsın. Bu, yüklenecek veri türleri açısından büyük esneklik sağlar; ancak Spark için en uygun format değildir. Parquet formatı sütun bazlı bir veri deposudur ve Spark'ın predicate pushdown kullanmasına olanak tanır. Bu da, Spark'ın tüm veri kümesini okumak yerine yalnızca tanımladığın işlemleri tamamlamak için gereken veriyi işleyeceği anlamına gelir. Bu sayede Spark veriye erişimde daha esnek olur ve özellikle büyük veri kümelerinde performansı ciddi ölçüde artırır.
Bu egzersizde, yeni bir Parquet dosyası oluşturmayı ve ardından ondan bazı verileri işlemeyi pratik yapacağız.
spark nesnesi ile df1 ve df2 DataFrame'leri senin için hazırlandı.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
df1vedf2satır sayılarını görüntüle.unionmetoduyladf1vedf2'yi birleştiripdf3adlı yeni bir DataFrame oluştur.df3'üAA_DFW_ALL.parquetadlı birparquetdosyasına kaydet.AA_DFW_ALL.parquetdosyasını oku ve sayısını göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())
# Combine the DataFrames into one
df3 = df1.union(df2)
# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')
# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())