1. Uczyć się
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Machine Learning

Connected

Exercise

불용어 제거와 해싱

다음 단계에서는 stopwords를 제거한 뒤 해싱 트릭을 적용하고, 결과를 TF-IDF로 변환하겠습니다.

개념을 간단히 다시 정리해 볼게요.

  • 해싱 트릭은 매우 큰(경우에 따라 무한한) 항목 집합(여기서는 SMS 메시지에 포함된 모든 단어)을 더 작고 유한한 값의 집합으로 빠르고 공간 효율적으로 매핑하는 방법입니다.
  • TF-IDF 행렬은 각 문서에서 단어가 얼마나 중요한지를 반영합니다. 각 문서 내에서의 단어 빈도뿐 아니라, 코퍼스 전체에서의 단어 빈도도 함께 고려합니다.

토큰화된 SMS 데이터는 sms의 words라는 열에 저장되어 있어요. 공백 처리를 정리해서 토큰화된 텍스트가 더 깔끔해졌습니다.

Instrukcje

100 XP
  • StopWordsRemover, HashingTF, IDF 클래스를 임포트하세요.
  • StopWordsRemover 객체를 생성하세요(입력 열은 words, 출력 열은 terms). sms에 적용하세요.
  • HashingTF 객체를 생성하세요(이전 단계의 결과를 입력으로, 출력 열은 hash). wrangled에 적용하세요.
  • IDF 객체를 생성하세요(이전 단계의 결과를 입력으로, 출력 열은 features). wrangled에 적용하세요.