Filter dan Hitung
Transformasi RDD filter() mengembalikan RDD baru yang hanya berisi elemen-elemen yang memenuhi suatu fungsi. Ini berguna untuk memfilter himpunan data besar berdasarkan sebuah kata kunci. Pada latihan ini, Anda akan menyaring baris yang mengandung kata kunci Spark dari RDD fileRDD yang berisi baris-baris teks dari berkas README.md. Selanjutnya, Anda akan menghitung total jumlah baris yang mengandung kata kunci Spark dan akhirnya mencetak 4 baris pertama dari RDD yang telah difilter.
Ingat, Anda sudah memiliki SparkContext sc, file_path, dan fileRDD yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat transformasi
filter()untuk memilih baris yang mengandung kata kunciSpark. - Berapa banyak baris dalam
fileRDD_filteryang mengandung kata kunciSpark? - Cetak empat baris pertama dari RDD hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)