1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Unsupervised Learning

Connected

Exercises

tf-idf 단어 빈도 배열

이 연습 문제에서는 간단한 문서 모음에 대해 tf-idf 단어 빈도 배열을 만들어 봅니다. 이를 위해 sklearn의 TfidfVectorizer를 사용하세요. 이 도구는 문서 리스트를 단어 빈도 배열로 변환하고, 결과를 csr_matrix 형태로 출력합니다. 다른 sklearn 객체와 마찬가지로 fit()과 transform() 메서드를 제공합니다.

반려동물에 관한 간단한 문서 리스트 documents가 제공됩니다.

คำแนะนำ

100 XP
  • sklearn.feature_extraction.text에서 TfidfVectorizer를 임포트하세요.
  • tfidf라는 이름의 TfidfVectorizer 인스턴스를 생성하세요.
  • tfidf의 .fit_transform() 메서드를 documents에 적용하고 결과를 csr_mat에 할당하세요. 이는 csr_matrix 형식의 단어 빈도 배열입니다.
  • .toarray() 메서드를 호출해 csr_mat을 확인하고 결과를 출력하세요. 이 부분은 이미 준비되어 있습니다.
  • 배열의 열은 단어에 해당합니다. tfidf의 .get_feature_names_out() 메서드를 호출해 단어 목록을 얻고, 결과를 words에 할당하세요.