BaşlayınÜcretsiz Başlayın

Veriyi yeniden bölümlemek

id, word ve chapter sütunlarına sahip text_df adlı bir dataframe var. text_df’in ilk 5 satırı konsola yazdırıldı.

Aşağıdaki komutla 12 bölüm olduğunu görebilirsin:

text_df.select('chapter')\
       .distinct()\
       .sort('chapter')\
       .show(truncate=False)

Bu komutun çıktısı konsolda Table 1 olarak gösterildi.

text_df şu anda tek bir bölümde (partition) bulunuyor. Diyelim ki ilerideki işlem adımlarında veriyi bölümlere göre gruplayacağını biliyorsun. İşlem en verimli şekilde, her bölüm tek bir makinada kalırsa yapılır. Verinin makineler arasında gereksiz yer değiştirmesini (shuffling) önlemek için, bu bölümün ilk video dersinde öğretilen repartition ve getNumPartitions komutlarını kullanarak dataFrame’i her bölüm için birer tane olmak üzere toplam 12 bölüme yeniden dağıtalım.

Videoda nasıl yapıldığını unuttuysan, konsolun sağındaki slaytlara göz atmaktan çekinme.

Bu egzersiz

Python ile Spark SQL'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • text_df’i her bölüm kendi bölümünde olacak şekilde 12 bölüme yeniden dağıt.
  • Yeni dataframe’deki bölüm (partition) sayısını göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Repartition text_df into 12 partitions on 'chapter' column
repart_df = text_df.____(____, ____)

# Prove that repart_df has 12 partitions
repart_df.____.____
Kodu Düzenle ve Çalıştır