1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

연습 문제

코퍼스에서 tibble 만들기

동료로부터 받은 원유 관련 코퍼스를 더 자세히 살펴보기 위해, 문서에 포함된 텍스트를 정제하는 파이프라인을 만들려고 합니다. tm 패키지로 처리하는 대신, 코퍼스를 tibble로 변환해 이미 익숙한 unnest_tokens(), count(), anti_join() 함수를 사용하려고 해요. 코퍼스 crude에는 각 문서의 메타데이터와 텍스트가 모두 들어 있습니다.

지침

100 XP
  • 코퍼스를 tibble로 변환하세요.
  • names를 사용해 열 이름을 출력하세요.
  • crude_tibble의 text 열에서 단어 단위로 토큰화하고, 빈도를 계산한 뒤, 불용어를 제거하세요.