1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Natural Language Processing (NLP)

Connected

연습 문제

불용어 제거하기

여러분은 사용자 피드백을 "product issues", "service issues", "suggestions"와 같은 범주로 분류하는 프로젝트를 진행하고 있어요. 보통 불용어는 범주를 구분하는 데 큰 의미를 갖지 않죠. 이번 과제에서는 이러한 불용어를 제거해, 나중에 Machine Learning 모델이 피드백을 올바른 주제로 분류하는 데 도움이 되는 핵심 단어에 집중하도록 하세요.

nltk.tokenize의 word_tokenize와 nltk.corpus의 stopwords.words는 이미 임포트되어 있어요. 또한 NLTK 리소스인 punkt_tab과 stopwords도 미리 다운로드되어 있어요.

지침

100 XP
  • 제공된 피드백을 단어 단위로 토큰화하세요.
  • 영어 불용어 목록을 가져오세요.
  • 영어 불용어를 제거하고 결과를 filtered_tokens에 저장하세요.