Filtrele ve Say
RDD dönüşümü filter(), belirli bir işlevi sağlayan öğeleri içeren yeni bir RDD döndürür. Bu, büyük veri kümelerini bir anahtar sözcüğe göre filtrelemek için kullanışlıdır. Bu egzersizde, README.md dosyasındaki metin satırlarından oluşan fileRDD RDD’sinden Spark anahtar sözcüğünü içeren satırları filtreleyeceksin. Sonrasında, Spark anahtar sözcüğünü içeren toplam satır sayısını bulacak ve son olarak filtrelenmiş RDD’nin ilk 4 satırını yazdıracaksın.
Unutma, çalışma alanında zaten bir SparkContext sc, file_path ve fileRDD var.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
Sparkanahtar sözcüğünü içeren satırları seçmek içinfilter()dönüşümünü oluştur.fileRDD_filteriçindeSparkanahtar sözcüğünü içeren kaç satır var?- Ortaya çıkan RDD’nin ilk dört satırını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)