1. 학습
  2. /
  3. 강의
  4. /
  5. spaCy로 배우는 자연어 처리

Connected

연습 문제

spaCy의 PhraseMatcher

비정형 텍스트를 처리하다 보면, 주어진 텍스트에서 스캔하고 매치해야 하는 긴 목록이나 사전을 자주 다루게 됩니다. Matcher 패턴은 손수 정의해야 하며 각 토큰을 개별적으로 코딩해야 합니다. 문구 목록이 길다면 Matcher는 더 이상 최선의 선택이 아닙니다. 이런 경우 PhraseMatcher 클래스가 긴 사전을 효율적으로 매칭하는 데 도움이 됩니다. 이 연습 문제에서는 PhraseMatcher 클래스를 사용해 여러 용어와 동일한 형태(shape)를 갖는 패턴을 찾아 추출하는 방법을 연습합니다.

en_core_web_sm 모델은 이미 로드되어 nlp로 사용할 수 있습니다. PhraseMatcher 클래스도 임포트되어 있습니다. text 문자열과 terms 리스트가 제공됩니다.

지침

100 XP
  • 주어진 terms의 형태(shape)와 일치하도록 attr을 지정해 PhraseMatcher 클래스를 초기화하세요.
  • PhraseMatcher 객체에 추가할 patterns를 만드세요.
  • 주어진 패턴과 매칭되는 항목을 찾아, 시작/끝 토큰 인덱스와 text에서 매칭된 구간을 출력하세요.