1. Learn
  2. /
  3. Courses
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

Exercise

word2vec

여러분은 인터넷에서 많은 직함 정보를 웹 스크래핑해 왔고, 분석을 위해 추가로 더 수집해야 할지 확신이 서지 않습니다. 현재까지 job_titles라는 데이터셋에 13,000개가 넘는 직함을 모았습니다. 보통 word2vec은 모델이 충분한 데이터로 제대로 학습될 때 가장 좋은 성능을 내며, 데이터에서 어떤 단어의 등장 빈도가 충분하지 않다면 모델이 유용하지 않을 수 있다고 알려져 있습니다.

이번 연습 문제에서는 데이터를 더 추가하는 것이 얼마나 도움이 되는지 확인하기 위해 모델을 3번 실행해 보겠습니다. 각 실행에서는 더 많은 데이터를 사용합니다.

Instructions 1/3

undefined XP
  • 1
    • 사용 가능한 데이터의 33%를 사용해 단어 teacher의 유의어 목록을 출력하세요.
  • 2
    • 코드를 수정해 사용 가능한 데이터의 66%를 사용하세요.
  • 3
    • 코드를 수정해 사용 가능한 데이터의 100%를 사용하세요.