1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

Exercise

불용어 제거 및 데이터셋 축소

이 연습에서는 데이터에서 불용어(stop words)를 제거해 보겠습니다. 불용어는 "I", "the", "a"처럼 자주 등장하지만 분석에 큰 의미가 없는 단어를 말합니다. 보통은 직접 만든 목록으로 많은 불용어를 제거할 수 있지만, 이번에는 실습 환경에 제공된 정제된 목록 stop_words만 사용해 제거해 보겠습니다.

불용어를 제거한 뒤에는 각 요소가 (k, v) 형태의 튜플로 이루어진 pair RDD를 만들겠습니다. 이 예제에서는 각 RDD의 단어를 w라고 할 때, pair RDD는 (w, 1)로 구성됩니다. 마지막으로, 같은 키를 가진 값들을 합쳐서 각 단어의 등장 횟수를 셉니다.

작업 공간에는 이미 SparkContext sc와 splitRDD, 그리고 stop_words 목록 변수가 준비되어 있음을 기억하세요.

Instructions

100 XP
  • splitRDD에서 stop_words 변수에 포함된 불용어를 제거하도록 filter를 적용하세요.
  • splitRDD의 각 단어 요소에서 단어(반복자 w 사용)와 숫자 1로 이루어진 pair RDD 튜플을 만드세요.
  • pair RDD에서 각 단어의 등장 횟수(단어 빈도)를 구하세요. 키-값 (k,v) 쌍에 대해 동작하는 변환을 사용하세요. 여기서 어떤 함수를 써야 할지 신중히 생각해 보세요.