1. 학습
  2. /
  3. 강의
  4. /
  5. spaCy로 배우는 자연어 처리

Connected

연습 문제

주석 달기와 학습 데이터 준비

데이터를 수집한 뒤에는 spaCy 모델이 요구하는 형식으로 데이터를 주석 처리할 수 있어요. 이 연습 문제에서는 의료 도메인의 NER 작업을 위해 올바른 주석 데이터 레코드를 만드는 연습을 해 볼 거예요.

sentence와 두 개의 엔티티가 제공되어 있어요. entity_1은 텍스트가 chest pain이고 유형은 SYMPTOM, entity_2는 텍스트가 hyperthyroidism이고 유형은 DISEASE예요.

지침

100 XP
  • annotated_data 레코드를 올바른 형식으로 완성하세요.
  • 각 엔티티의 시작과 끝 문자를 추출해 해당 변수에 저장하세요.
  • 동일한 입력 문장과 그 엔티티들을 올바른 학습 형식으로 training_data에 저장하세요.