Hapus stop words dan lakukan reduksi pada himpunan data
Dalam latihan ini Anda akan menghapus stop words dari data Anda. Stop words adalah kata-kata umum yang sering kali kurang menarik, misalnya "I", "the", "a", dan sebagainya. Anda dapat menghapus banyak stop words yang jelas dengan daftar buatan sendiri. Namun untuk latihan ini, Anda hanya akan menghapus stop words dari daftar terkurasi stop_words yang telah disediakan di lingkungan Anda.
Setelah menghapus stop words, Anda akan membuat pair RDD di mana setiap elemennya adalah pasangan tuple (k, v) dengan k sebagai key dan v sebagai value. Pada contoh ini, pair RDD tersusun dari (w, 1) di mana w adalah setiap kata dalam RDD dan 1 adalah sebuah angka. Terakhir, Anda akan menggabungkan nilai-nilai dengan key yang sama dari pair RDD untuk menghitung jumlah kemunculan setiap kata.
Ingat bahwa Anda sudah memiliki SparkContext sc dan splitRDD di workspace Anda, bersama dengan variabel daftar stop_words.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Lakukan filter pada
splitRDD, dengan menghapus stop words yang tercantum dalam variabelstop_words. - Buat pair RDD berupa tuple yang berisi kata (menggunakan iterator
w) dan angka1dari setiap elemen kata dalamsplitRDD. - Dapatkan jumlah kemunculan setiap kata (frekuensi kata) dalam pair RDD. Gunakan sebuah transformasi yang beroperasi pada pasangan key, value (k,v). Pertimbangkan dengan saksama fungsi mana yang harus digunakan di sini.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter splitRDD to remove stop words from the stop_words curated list
splitRDD_no_stop = splitRDD.____(lambda x: x.lower() not in ____)
# Create a tuple of the word (w) and 1
splitRDD_no_stop_words = splitRDD_no_stop.map(lambda w: (____, ____))
# Count of the number of occurences of each word
resultRDD = splitRDD_no_stop_words.____(lambda x, y: x + y)