1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 Natural Language Processing (NLP)

Connected

演習

제품 피드백의 TF-IDF 표현

여러분은 스마트 홈 회사의 고객 지원 팀과 함께 일하고 있어요. 이들은 다양한 스마트 기기에 대한 사용자 피드백을 수집했고, 각 리뷰에서 어떤 단어가 두드러지는지 파악하고 싶어 합니다. 여러분은 피드백 전반에서 가장 관련성 높은 용어를 강조하기 위해 TF-IDF 기법을 제안했어요. 함께 시작해 볼까요?

텍스트를 받아 전처리된 텍스트를 반환하는 preprocess() 함수가 미리 로드되어 있어요. 이 함수는 소문자 변환, 토큰화, 구두점 제거를 수행합니다. Pandas는 pd로 임포트되어 있으며, TfidfVectorizer 클래스도 사용할 준비가 되어 있어요.

指示

100 XP
  • TF-IDF vectorizer를 초기화하세요.
  • 정제된 리뷰를 변환해 tfidf_matrix를 만드세요.
  • 어휘 단어들을 열로 갖는 tfidf_matrix의 DataFrame df를 생성하세요.