Buat RDD dasar dan transformasikan

Volume data tidak terstruktur (baris log, gambar, berkas biner) yang ada meningkat pesat, dan PySpark merupakan kerangka kerja yang sangat baik untuk menganalisis jenis data ini melalui RDD. Dalam latihan 3 bagian ini, Anda akan menulis kode yang menghitung kata-kata paling umum dari Complete Works of William Shakespeare.

Berikut langkah singkat untuk menulis program penghitung kata:

Buat RDD dasar dari berkas Complete_Shakespeare.txt.
Gunakan transformasi RDD untuk membuat daftar panjang kata dari setiap elemen RDD dasar.
Hapus stop words dari data Anda.
Buat pair RDD di mana setiap elemennya adalah pasangan tuple ('w', 1)
Kelompokkan elemen pair RDD berdasarkan kunci (kata) dan jumlahkan nilainya.
Tukar kunci (kata) dan nilai (jumlah) sehingga kuncinya adalah jumlah dan nilainya adalah kata.
Terakhir, urutkan RDD secara menurun dan cetak 10 kata yang paling sering beserta frekuensinya.

Dalam latihan pertama ini, Anda akan membuat RDD dasar dari berkas Complete_Shakespeare.txt dan mentransformasikannya untuk membuat daftar panjang kata.

Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda. Variabel file_path (yang merupakan path ke berkas Complete_Shakespeare.txt) juga sudah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

Buat RDD bernama baseRDD yang membaca baris-baris dari file_path.
Transformasikan baseRDD menjadi daftar panjang kata dan buat splitRDD baru.
Hitung total jumlah kata dalam splitRDD.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a baseRDD from the file path
baseRDD = sc.____(file_path)

# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())

# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())

Edit dan Jalankan Kode