1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 음성 언어 처리

Connected

演習

다수 화자 1

대화를 전사하려면 보통 화자가 한 명 이상이에요. 하지만 보시다시피 recognize_google() 함수는 음성을 하나의 텍스트 블록으로만 전사해요.

이 오디오 파일을 들어보면 세 명의 서로 다른 화자가 있어요.

그런데 그대로 전사하면 recognize_google()은 하나의 텍스트 블록만 반환해요. 여전히 유용하긴 하지만, 누가 무엇을 말했는지는 알 수 없죠.

다음 연습 문제에서 이에 대한 대안을 살펴볼게요.

다수 화자 오디오 파일은 가져와서 AudioData로 변환되었고, 변수 multiple_speakers에 저장되어 있어요.

指示

100 XP
  • Recognizer 인스턴스를 생성하세요.
  • recognize_google() 함수를 사용해 multiple_speakers 변수를 인식하세요.
  • 언어를 미국 영어("en-US")로 설정하세요.