Durak kelimeleri kaldır ve veri kümesini indirgeme

Bu egzersizde verilerinden durak kelimeleri kaldıracaksın. Durak kelimeler, genellikle ilgi çekici olmayan yaygın kelimelerdir; örneğin "I", "the", "a" gibi. Kendi listeni oluşturarak pek çok bariz durak kelimeyi kaldırabilirsin. Ama bu egzersizde, çalışma ortamında sana sağlanan, özenle seçilmiş stop_words listesindeki kelimeleri kaldıracaksın.

Durak kelimeleri kaldırdıktan sonra, her bir öğesi (k, v) şeklinde bir ikiliden oluşan bir çift RDD (pair RDD) oluşturacaksın; burada k anahtar, v ise değerdir. Bu örnekte çift RDD, RDD'deki her kelime için (w, 1) ikililerinden oluşur; w kelimeyi, 1 ise bir sayıyı temsil eder. Son olarak, her kelimenin kaç kez geçtiğini saymak için çift RDD'de aynı anahtara sahip değerleri birleştireceksin.

Unutma, çalışma alanında bir SparkContext sc, splitRDD ve stop_words listesi zaten mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

splitRDD içinden, stop_words değişkeninde listelenen durak kelimeleri kaldırarak filtrele.
splitRDD içindeki her kelime öğesinden, kelimeyi ( w yineleyicisini kullanarak) ve sayı 1'i içeren bir çift RDD demeti oluştur.
Çift RDD’de, her kelimenin kaç kez geçtiğini (kelime sıklığı) al. Anahtar, değer (k,v) çiftleri üzerinde çalışan bir dönüşüm kullan. Burada hangi fonksiyonu kullanman gerektiğini dikkatle düşün.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Filter splitRDD to remove stop words from the stop_words curated list
splitRDD_no_stop = splitRDD.____(lambda x: x.lower() not in ____)

# Create a tuple of the word (w) and 1 
splitRDD_no_stop_words = splitRDD_no_stop.map(lambda w: (____, ____))

# Count of the number of occurences of each word
resultRDD = splitRDD_no_stop_words.____(lambda x, y: x + y)

Kodu Düzenle ve Çalıştır