다수 화자 1

대화를 전사하려면 보통 화자가 한 명 이상이에요. 하지만 보시다시피 recognize_google() 함수는 음성을 하나의 텍스트 블록으로만 전사해요.

이 오디오 파일을 들어보면 세 명의 서로 다른 화자가 있어요.

그런데 그대로 전사하면 recognize_google()은 하나의 텍스트 블록만 반환해요. 여전히 유용하긴 하지만, 누가 무엇을 말했는지는 알 수 없죠.