1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 음성 언어 처리

Connected

Exercises

spaCy에서 개체명 인식

개체명(named entities)은 도시, 사람, 날짜, 시간처럼 실제 세계의 이름을 가진 객체를 말해요. 전사된 텍스트에서 개체명을 찾기 위해 spaCy를 사용할 수 있어요.

이번 연습에서는 transcribe_audio()로 call_4_channel_2.wav(file)를 텍스트로 전사한 다음, spaCy의 언어 모델 en_core_web_sm을 사용해 전사된 텍스트를 spaCy doc으로 변환해 볼 거예요.

텍스트를 spaCy doc으로 변환하면, 토큰(단어)에는 .text, 문장에는 .sents, 개체명에는 .ents처럼 텍스트 분석을 위한 spaCy의 내장 기능을 활용할 수 있어요.

คำแนะนำ 1 / 4

undefined XP
  • 1
    • 전사된 call 4 channel 2 텍스트를 nlp()에 전달해 spaCy doc을 만든 뒤, 그 타입을 확인하세요.
  • 2
    • call_4_channel_2_text로 spaCy doc을 만든 다음, .text 속성을 사용해 안에 있는 모든 토큰의 텍스트를 출력하세요.
  • 3
    • "en_core_web_sm" 언어 모델을 로드한 다음, .sents 속성을 사용해 doc의 문장들을 출력하세요.
  • 4
    • .ents로 doc의 개체명에 접근한 뒤, 각 개체명의 텍스트를 출력하세요.