MulaiMulai sekarang secara gratis

Filter dan Hitung

Transformasi RDD filter() mengembalikan RDD baru yang hanya berisi elemen-elemen yang memenuhi suatu fungsi. Ini berguna untuk memfilter himpunan data besar berdasarkan sebuah kata kunci. Pada latihan ini, Anda akan menyaring baris yang mengandung kata kunci Spark dari RDD fileRDD yang berisi baris-baris teks dari berkas README.md. Selanjutnya, Anda akan menghitung total jumlah baris yang mengandung kata kunci Spark dan akhirnya mencetak 4 baris pertama dari RDD yang telah difilter.

Ingat, Anda sudah memiliki SparkContext sc, file_path, dan fileRDD yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat transformasi filter() untuk memilih baris yang mengandung kata kunci Spark.
  • Berapa banyak baris dalam fileRDD_filter yang mengandung kata kunci Spark?
  • Cetak empat baris pertama dari RDD hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Edit dan Jalankan Kode