Hapus stop words dan lakukan reduksi pada himpunan data

Dalam latihan ini Anda akan menghapus stop words dari data Anda. Stop words adalah kata-kata umum yang sering kali kurang menarik, misalnya "I", "the", "a", dan sebagainya. Anda dapat menghapus banyak stop words yang jelas dengan daftar buatan sendiri. Namun untuk latihan ini, Anda hanya akan menghapus stop words dari daftar terkurasi stop_words yang telah disediakan di lingkungan Anda.

Setelah menghapus stop words, Anda akan membuat pair RDD di mana setiap elemennya adalah pasangan tuple (k, v) dengan k sebagai key dan v sebagai value. Pada contoh ini, pair RDD tersusun dari (w, 1) di mana w adalah setiap kata dalam RDD dan 1 adalah sebuah angka. Terakhir, Anda akan menggabungkan nilai-nilai dengan key yang sama dari pair RDD untuk menghitung jumlah kemunculan setiap kata.

Ingat bahwa Anda sudah memiliki SparkContext sc dan splitRDD di workspace Anda, bersama dengan variabel daftar stop_words.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

Lakukan filter pada splitRDD, dengan menghapus stop words yang tercantum dalam variabel stop_words.
Buat pair RDD berupa tuple yang berisi kata (menggunakan iterator w) dan angka 1 dari setiap elemen kata dalam splitRDD.
Dapatkan jumlah kemunculan setiap kata (frekuensi kata) dalam pair RDD. Gunakan sebuah transformasi yang beroperasi pada pasangan key, value (k,v). Pertimbangkan dengan saksama fungsi mana yang harus digunakan di sini.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter splitRDD to remove stop words from the stop_words curated list
splitRDD_no_stop = splitRDD.____(lambda x: x.lower() not in ____)

# Create a tuple of the word (w) and 1 
splitRDD_no_stop_words = splitRDD_no_stop.map(lambda w: (____, ____))

# Count of the number of occurences of each word
resultRDD = splitRDD_no_stop_words.____(lambda x, y: x + y)

Edit dan Jalankan Kode