Mulai sekarangMulai gratis

Filter dan Hitung

Transformasi RDD filter() mengembalikan RDD baru yang hanya berisi elemen-elemen yang memenuhi suatu fungsi. Ini berguna untuk memfilter himpunan data besar berdasarkan sebuah kata kunci. Pada latihan ini, Anda akan menyaring baris yang mengandung kata kunci Spark dari RDD fileRDD yang berisi baris-baris teks dari berkas README.md. Selanjutnya, Anda akan menghitung total jumlah baris yang mengandung kata kunci Spark dan akhirnya mencetak 4 baris pertama dari RDD yang telah difilter.

Ingat, Anda sudah memiliki SparkContext sc, file_path, dan fileRDD yang tersedia di workspace Anda.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

  • Buat transformasi filter() untuk memilih baris yang mengandung kata kunci Spark.
  • Berapa banyak baris dalam fileRDD_filter yang mengandung kata kunci Spark?
  • Cetak empat baris pertama dari RDD hasilnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Edit dan Jalankan Kode