Durak kelimeleri kaldır ve veri kümesini indirgeme
Bu egzersizde verilerinden durak kelimeleri kaldıracaksın. Durak kelimeler, genellikle ilgi çekici olmayan yaygın kelimelerdir; örneğin "I", "the", "a" gibi. Kendi listeni oluşturarak pek çok bariz durak kelimeyi kaldırabilirsin. Ama bu egzersizde, çalışma ortamında sana sağlanan, özenle seçilmiş stop_words listesindeki kelimeleri kaldıracaksın.
Durak kelimeleri kaldırdıktan sonra, her bir öğesi (k, v) şeklinde bir ikiliden oluşan bir çift RDD (pair RDD) oluşturacaksın; burada k anahtar, v ise değerdir. Bu örnekte çift RDD, RDD'deki her kelime için (w, 1) ikililerinden oluşur; w kelimeyi, 1 ise bir sayıyı temsil eder. Son olarak, her kelimenin kaç kez geçtiğini saymak için çift RDD'de aynı anahtara sahip değerleri birleştireceksin.
Unutma, çalışma alanında bir SparkContext sc, splitRDD ve stop_words listesi zaten mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
splitRDDiçinden,stop_wordsdeğişkeninde listelenen durak kelimeleri kaldırarak filtrele.splitRDDiçindeki her kelime öğesinden, kelimeyi (wyineleyicisini kullanarak) ve sayı1'i içeren bir çift RDD demeti oluştur.- Çift RDD’de, her kelimenin kaç kez geçtiğini (kelime sıklığı) al. Anahtar, değer (k,v) çiftleri üzerinde çalışan bir dönüşüm kullan. Burada hangi fonksiyonu kullanman gerektiğini dikkatle düşün.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Filter splitRDD to remove stop words from the stop_words curated list
splitRDD_no_stop = splitRDD.____(lambda x: x.lower() not in ____)
# Create a tuple of the word (w) and 1
splitRDD_no_stop_words = splitRDD_no_stop.map(lambda w: (____, ____))
# Count of the number of occurences of each word
resultRDD = splitRDD_no_stop_words.____(lambda x, y: x + y)