BaşlayınÜcretsiz Başlayın

Farklı bölümlere (partition) sahip ID'ler

Bir DataFrame'e bir ID alanı eklemeyi yeni tamamladın. Şimdi, aynı işlemi farklı sayıda bölüme (partition) sahip DataFrame'ler üzerinde yaptığında ne olduğuna bakalım.

Bölüm sayısını kontrol etmek için, bir DataFrame üzerinde .rdd.getNumPartitions() metodunu kullan.

Çalışma alanında spark oturumu ve iki DataFrame var: voter_df ve voter_df_single. Talimatlar, bu DataFrame'ler arasındaki farkı keşfetmene yardımcı olacak. pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her bir DataFrame'in bölüm (partition) sayısını yazdır.
  • Her bir DataFrame'e bir ROW_ID alanı ekle.
  • Her bir DataFrame'de ilk 10 ID'yi göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)
Kodu Düzenle ve Çalıştır