Filtrele ve Say

RDD dönüşümü filter(), belirli bir işlevi sağlayan öğeleri içeren yeni bir RDD döndürür. Bu, büyük veri kümelerini bir anahtar sözcüğe göre filtrelemek için kullanışlıdır. Bu egzersizde, README.md dosyasındaki metin satırlarından oluşan fileRDD RDD’sinden Spark anahtar sözcüğünü içeren satırları filtreleyeceksin. Sonrasında, Spark anahtar sözcüğünü içeren toplam satır sayısını bulacak ve son olarak filtrelenmiş RDD’nin ilk 4 satırını yazdıracaksın.

Unutma, çalışma alanında zaten bir SparkContext sc, file_path ve fileRDD var.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Spark anahtar sözcüğünü içeren satırları seçmek için filter() dönüşümünü oluştur.
fileRDD_filter içinde Spark anahtar sözcüğünü içeren kaç satır var?
Ortaya çıkan RDD’nin ilk dört satırını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Kodu Düzenle ve Çalıştır