1. 학습
  2. /
  3. 강의
  4. /
  5. spaCy로 배우는 자연어 처리

Connected

연습 문제

spaCy로 표제어 추출(Lemmatization)

이번 연습에서는 표제어 추출(lemmatization)을 실습해 볼 거예요. 표제어 추출은 파생된 단어에서 어근 형태를 얻는 데 유용해요. 즉, 어떤 문장이 주어지면 표제어의 개수는 토큰 개수보다 적거나 같을 것으로 기대할 수 있어요.

첫 번째 Amazon 음식 리뷰가 text라는 문자열로 제공되어 있어요. en_core_web_sm 모델은 nlp로 로드되어 있고, text에 적용해 텍스트 문자열을 담는 Doc 컨테이너 document를 만들어 두었어요.

text의 토큰을 담은 리스트인 tokens도 이미 준비되어 있어요.

지침

100 XP
  • document의 모든 토큰에 대해 표제어를 lemmas에 추가하고, lemmas 리스트를 출력하세요.
  • tokens 리스트를 출력하고, tokens와 lemmas의 차이를 관찰하세요.