Farklı bölümlere (partition) sahip ID'ler
Bir DataFrame'e bir ID alanı eklemeyi yeni tamamladın. Şimdi, aynı işlemi farklı sayıda bölüme (partition) sahip DataFrame'ler üzerinde yaptığında ne olduğuna bakalım.
Bölüm sayısını kontrol etmek için, bir DataFrame üzerinde .rdd.getNumPartitions() metodunu kullan.
Çalışma alanında spark oturumu ve iki DataFrame var: voter_df ve voter_df_single. Talimatlar, bu DataFrame'ler arasındaki farkı keşfetmene yardımcı olacak. pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
- Her bir DataFrame'in bölüm (partition) sayısını yazdır.
- Her bir DataFrame'e bir
ROW_IDalanı ekle. - Her bir DataFrame'de ilk 10 ID'yi göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)