불용어 제거 및 데이터셋 축소

이 연습에서는 데이터에서 불용어(stop words)를 제거해 보겠습니다. 불용어는 "I", "the", "a"처럼 자주 등장하지만 분석에 큰 의미가 없는 단어를 말합니다. 보통은 직접 만든 목록으로 많은 불용어를 제거할 수 있지만, 이번에는 실습 환경에 제공된 정제된 목록 stop_words만 사용해 제거해 보겠습니다.

불용어를 제거한 뒤에는 각 요소가 (k, v) 형태의 튜플로 이루어진 pair RDD를 만들겠습니다. 이 예제에서는 각 RDD의 단어를 w라고 할 때, pair RDD는 (w, 1)로 구성됩니다. 마지막으로, 같은 키를 가진 값들을 합쳐서 각 단어의 등장 횟수를 셉니다.

작업 공간에는 이미 SparkContext sc와 splitRDD, 그리고 stop_words 목록 변수가 준비되어 있음을 기억하세요.