연습 문제

코퍼스에서 tibble 만들기

동료로부터 받은 원유 관련 코퍼스를 더 자세히 살펴보기 위해, 문서에 포함된 텍스트를 정제하는 파이프라인을 만들려고 합니다. tm 패키지로 처리하는 대신, 코퍼스를 tibble로 변환해 이미 익숙한 unnest_tokens(), count(), anti_join() 함수를 사용하려고 해요. 코퍼스 crude에는 각 문서의 메타데이터와 텍스트가 모두 들어 있습니다.

지침

100 XP

코퍼스를 tibble로 변환하세요.
names를 사용해 열 이름을 출력하세요.
crude_tibble의 text 열에서 단어 단위로 토큰화하고, 빈도를 계산한 뒤, 불용어를 제거하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제