spaCy로 표제어 추출(Lemmatization)

이번 연습에서는 표제어 추출(lemmatization)을 실습해 볼 거예요. 표제어 추출은 파생된 단어에서 어근 형태를 얻는 데 유용해요. 즉, 어떤 문장이 주어지면 표제어의 개수는 토큰 개수보다 적거나 같을 것으로 기대할 수 있어요.

첫 번째 Amazon 음식 리뷰가 text라는 문자열로 제공되어 있어요. en_core_web_sm 모델은 nlp로 로드되어 있고, text에 적용해 텍스트 문자열을 담는 Doc 컨테이너 document를 만들어 두었어요.

text의 토큰을 담은 리스트인 tokens도 이미 준비되어 있어요.