Bir DataFrame'i Parquet formatında kaydetme

Spark ile çalışırken çoğunlukla CSV, JSON veya diğer veri kaynaklarıyla başlarsın. Bu, yüklenecek veri türleri açısından büyük esneklik sağlar; ancak Spark için en uygun format değildir. Parquet formatı sütun bazlı bir veri deposudur ve Spark'ın predicate pushdown kullanmasına olanak tanır. Bu da, Spark'ın tüm veri kümesini okumak yerine yalnızca tanımladığın işlemleri tamamlamak için gereken veriyi işleyeceği anlamına gelir. Bu sayede Spark veriye erişimde daha esnek olur ve özellikle büyük veri kümelerinde performansı ciddi ölçüde artırır.

Bu egzersizde, yeni bir Parquet dosyası oluşturmayı ve ardından ondan bazı verileri işlemeyi pratik yapacağız.

spark nesnesi ile df1 ve df2 DataFrame'leri senin için hazırlandı.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

df1 ve df2 satır sayılarını görüntüle.
union metoduyla df1 ve df2'yi birleştirip df3 adlı yeni bir DataFrame oluştur.
df3'ü AA_DFW_ALL.parquet adlı bir parquet dosyasına kaydet.
AA_DFW_ALL.parquet dosyasını oku ve sayısını göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())

# Combine the DataFrames into one
df3 = df1.union(df2)

# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')

# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())

Kodu Düzenle ve Çalıştır