1. 학습
  2. /
  3. 강의
  4. /
  5. PyTorch로 배우는 텍스트 딥러닝

Connected

연습 문제

단어 빈도 분석

축하합니다! 여러분은 이제 PyBooks 팀의 일원이 되었어요. PyBooks는 도서 추천 시스템을 개발 중이며, 추천 품질을 높이기 위해 텍스트에서 패턴과 추세를 찾고자 합니다.

먼저, 주어진 텍스트에서 단어의 빈도를 파악하고 드문 단어를 제거해 보세요.

참고로, 실제 현업 데이터셋은 이 예시보다 훨씬 큰 경우가 많습니다.

지침

100 XP
  • torchtext에서 get_tokenizer를, nltk 라이브러리에서 FreqDist를 임포트하세요.
  • 영어용 토크나이저를 초기화하고 주어진 text를 토큰화하세요.
  • tokens의 빈도 분포를 계산하고, 리스트 컴프리헨션으로 희귀 단어를 제거하세요.