1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Loại bỏ stop words và rút gọn tập dữ liệu

Trong bài tập này, bạn sẽ loại bỏ các stop words khỏi dữ liệu. Stop words là những từ phổ biến, thường không mang nhiều ý nghĩa, ví dụ như "I", "the", "a",… Bạn có thể tự tạo một danh sách để loại bỏ nhiều stop words hiển nhiên. Nhưng với bài này, bạn chỉ cần loại bỏ các stop words từ danh sách đã được biên soạn stop_words có sẵn trong môi trường của bạn.

Sau khi loại bỏ stop words, bạn sẽ tạo một pair RDD trong đó mỗi phần tử là một tuple (k, v) với k là khóa và v là giá trị. Trong ví dụ này, pair RDD có dạng (w, 1) trong đó w là từng từ trong RDD và 1 là một con số. Cuối cùng, bạn sẽ gộp các giá trị có cùng khóa từ pair RDD để đếm số lần xuất hiện của mỗi từ.

Hãy nhớ bạn đã có sẵn SparkContext sc và splitRDD trong không gian làm việc, cùng với biến danh sách stop_words.

Hướng dẫn

100 XP
  • Lọc splitRDD, loại bỏ các stop words có trong biến stop_words.
  • Tạo một pair RDD dạng tuple chứa từ (sử dụng bộ lặp w) và số 1 từ mỗi phần tử là từ trong splitRDD.
  • Lấy số lần xuất hiện của mỗi từ (tần suất từ) trong pair RDD. Hãy dùng một phép biến đổi hoạt động trên các cặp khóa, giá trị (k,v). Cân nhắc kỹ hàm cần dùng ở đây.