spaCy로 텍스트 처리하기

모든 NLP 애플리케이션은 여러 텍스트 처리 단계로 구성돼요. 지금까지 토큰화, 표제어 추출(lematization), 문장 분할, 개체명 인식 등 몇 가지 단계를 이미 배웠습니다.

spaCy NLP Pipeline

이번 연습에서는 spaCy로 텍스트를 문장 단위로 나누고 개체명을 추출하는 등 텍스트 처리 단계를 계속 연습해 볼게요. 데이터는 Amazon Fine Food Reviews의 앞선 5개 리뷰를 사용합니다. 이 리뷰들은 texts 객체로 접근할 수 있어요.

en_core_web_sm 모델은 이미 로드되어 있으며 nlp로 사용할 수 있습니다. 또한 texts의 각 항목에 해당하는 Doc 컨테이너 목록도 미리 로드되어 documents에서 접근할 수 있습니다.

리스트 컴프리헨션을 사용해 documents의 각 doc 컨테이너에 있는 모든 문장으로 구성된 리스트의 리스트 sentences를 만드세요.
len() 메서드를 사용해 각 doc 컨테이너의 문장 수를 담은 리스트 num_sentences를 출력하세요.