1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCy로 배우는 자연어 처리

Connected

演習

spaCy의 EntityRuler로 RegEx 사용하기

정규 표현식(RegEx)은 복잡한 문자열 매칭 패턴을 이용해 규칙 기반으로 정보를 추출할 때 사용합니다. RegEx는 특정 패턴을 찾아내거나, 일치하는 패턴을 다른 패턴으로 치환하는 데 활용할 수 있어요. 이 연습에서는 주어진 text에서 이메일 주소를 찾기 위해 spaCy의 EntityRuler를 사용하는 방법을 연습해 보겠습니다.

spaCy 패키지는 이미 임포트되어 있어요. 0부터 9까지의 숫자와 일치하는 메타문자 패턴을 매칭하려면 \d를 사용할 수 있어요.

spaCy 패턴에서는 REGEX 속성을 사용할 수 있습니다. 이 경우 패턴 형태는 [{"TEXT": {"REGEX": "<a given pattern>"}}]가 됩니다.

指示

100 XP
  • EntityRuler에서 사용할, 8888888888 형태의 전화번호와 일치하는 패턴을 정의하세요.
  • 빈 spaCy 영어 모델을 로드하고 파이프라인에 EntityRuler 컴포넌트를 추가하세요.
  • 컴파일한 패턴을 EntityRuler 컴포넌트에 추가하세요.
  • 모델을 실행한 뒤, 주어진 text에 대해 엔티티의 텍스트와 타입으로 이루어진 튜플을 출력하세요.