1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

연습 문제

코퍼스의 코사인 유사도 행렬

이 연습 문제에서는 다섯 개 문장이 담긴 리스트 corpus가 제공됩니다. corpus는 콘솔에 출력되어 있어요. tf-idf로 벡터화한 뒤, 각 문장 쌍에 대한 코사인 유사도 점수를 모두 포함하는 코사인 유사도 행렬을 계산하세요.

유사도 행렬의 i번째 행과 j번째 열의 값은 i번째 벡터와 j번째 벡터의 유사도 점수를 의미한다는 점을 기억하세요.

지침

100 XP
  • TfidfVectorizer 인스턴스를 초기화하세요. 이름은 tfidf_vectorizer로 하세요.
  • fit_transform()을 사용해 corpus의 tf-idf 벡터를 생성하세요. 이름은 tfidf_matrix로 하세요.
  • cosine_similarity()를 사용하고, tfidf_matrix를 전달해 코사인 유사도 행렬 cosine_sim을 계산하세요.