Farklı bölümlere (partition) sahip ID'ler
Bir DataFrame'e bir ID alanı eklemeyi yeni tamamladın. Şimdi, aynı işlemi farklı sayıda bölüme (partition) sahip DataFrame'ler üzerinde yaptığında ne olduğuna bakalım.
Bölüm sayısını kontrol etmek için, bir DataFrame üzerinde .rdd.getNumPartitions() metodunu kullan.
Çalışma alanında spark oturumu ve iki DataFrame var: voter_df ve voter_df_single. Talimatlar, bu DataFrame'ler arasındaki farkı keşfetmene yardımcı olacak. pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
- Her bir DataFrame'in bölüm (partition) sayısını yazdır.
- Her bir DataFrame'e bir
ROW_IDalanı ekle. - Her bir DataFrame'de ilk 10 ID'yi göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)