Temel bir RDD oluştur ve dönüştür

Yapılandırılmamış verinin (log satırları, görseller, ikili dosyalar) hacmi hızla artıyor ve PySpark, bu tür verileri RDD’ler üzerinden analiz etmek için harika bir çerçeve. Bu 3 bölümlük egzersizde, William Shakespeare’in Tüm Eserleri içinden en sık geçen kelimeleri hesaplayan kodu yazacaksın.

Kelime sayma programını yazmanın kısa adımları:

Complete_Shakespeare.txt dosyasından bir temel RDD oluştur.
RDD dönüşümü kullanarak temel RDD’nin her bir öğesinden uzun bir kelime listesi üret.
Durdurma (stop) kelimelerini verinden çıkar.
Her öğesi ('w', 1) şeklinde bir çift olan bir eşlem (pair) RDD oluştur.
Eşlem RDD’nin öğelerini anahtara (kelimeye) göre grupla ve değerlerini topla.
Anahtarları (kelimeler) ve değerleri (sayımlar) yer değiştir; böylece anahtar sayım, değer ise kelime olsun.
Son olarak, RDD’yi azalan düzende sırala ve en sık geçen 10 kelimeyi sıklıklarıyla yazdır.

Bu ilk egzersizde, Complete_Shakespeare.txt dosyasından bir temel RDD oluşturacak ve bunu dönüştürerek uzun bir kelime listesi elde edeceksin.

Unutma, çalışma alanında bir SparkContext sc zaten mevcut. Ayrıca, Complete_Shakespeare.txt dosyasının yolunu tutan file_path değişkeni de senin için yüklendi.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

file_path içindeki satırları okuyan baseRDD adlı bir RDD oluştur.
baseRDD’yi dönüştürerek uzun bir kelime listesine çevir ve yeni bir splitRDD oluştur.
splitRDD içindeki toplam kelime sayısını say.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a baseRDD from the file path
baseRDD = sc.____(file_path)

# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())

# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())

Kodu Düzenle ve Çalıştır