Buat RDD dasar dan transformasikan
Volume data tidak terstruktur (baris log, gambar, berkas biner) yang ada meningkat pesat, dan PySpark merupakan kerangka kerja yang sangat baik untuk menganalisis jenis data ini melalui RDD. Dalam latihan 3 bagian ini, Anda akan menulis kode yang menghitung kata-kata paling umum dari Complete Works of William Shakespeare.
Berikut langkah singkat untuk menulis program penghitung kata:
- Buat RDD dasar dari berkas
Complete_Shakespeare.txt. - Gunakan transformasi RDD untuk membuat daftar panjang kata dari setiap elemen RDD dasar.
- Hapus stop words dari data Anda.
- Buat pair RDD di mana setiap elemennya adalah pasangan tuple
('w', 1) - Kelompokkan elemen pair RDD berdasarkan kunci (kata) dan jumlahkan nilainya.
- Tukar kunci (kata) dan nilai (jumlah) sehingga kuncinya adalah jumlah dan nilainya adalah kata.
- Terakhir, urutkan RDD secara menurun dan cetak 10 kata yang paling sering beserta frekuensinya.
Dalam latihan pertama ini, Anda akan membuat RDD dasar dari berkas Complete_Shakespeare.txt dan mentransformasikannya untuk membuat daftar panjang kata.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda. Variabel file_path (yang merupakan path ke berkas Complete_Shakespeare.txt) juga sudah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat RDD bernama
baseRDDyang membaca baris-baris darifile_path. - Transformasikan
baseRDDmenjadi daftar panjang kata dan buatsplitRDDbaru. - Hitung total jumlah kata dalam
splitRDD.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a baseRDD from the file path
baseRDD = sc.____(file_path)
# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())
# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())