Temel bir RDD oluştur ve dönüştür
Yapılandırılmamış verinin (log satırları, görseller, ikili dosyalar) hacmi hızla artıyor ve PySpark, bu tür verileri RDD’ler üzerinden analiz etmek için harika bir çerçeve. Bu 3 bölümlük egzersizde, William Shakespeare’in Tüm Eserleri içinden en sık geçen kelimeleri hesaplayan kodu yazacaksın.
Kelime sayma programını yazmanın kısa adımları:
Complete_Shakespeare.txtdosyasından bir temel RDD oluştur.- RDD dönüşümü kullanarak temel RDD’nin her bir öğesinden uzun bir kelime listesi üret.
- Durdurma (stop) kelimelerini verinden çıkar.
- Her öğesi
('w', 1)şeklinde bir çift olan bir eşlem (pair) RDD oluştur. - Eşlem RDD’nin öğelerini anahtara (kelimeye) göre grupla ve değerlerini topla.
- Anahtarları (kelimeler) ve değerleri (sayımlar) yer değiştir; böylece anahtar sayım, değer ise kelime olsun.
- Son olarak, RDD’yi azalan düzende sırala ve en sık geçen 10 kelimeyi sıklıklarıyla yazdır.
Bu ilk egzersizde, Complete_Shakespeare.txt dosyasından bir temel RDD oluşturacak ve bunu dönüştürerek uzun bir kelime listesi elde edeceksin.
Unutma, çalışma alanında bir SparkContext sc zaten mevcut. Ayrıca, Complete_Shakespeare.txt dosyasının yolunu tutan file_path değişkeni de senin için yüklendi.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
file_pathiçindeki satırları okuyanbaseRDDadlı bir RDD oluştur.baseRDD’yi dönüştürerek uzun bir kelime listesine çevir ve yeni birsplitRDDoluştur.splitRDDiçindeki toplam kelime sayısını say.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a baseRDD from the file path
baseRDD = sc.____(file_path)
# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())
# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())