1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie mowy w Pythonie

Connected

ćwiczenie

Wielu mówców 2

Rozróżnianie wielu mówców w jednym pliku audio nazywa się diaryzacją mówców. Jak już wiesz, funkcja recognize_google(), z której korzystaliśmy bezpłatnie, nie obsługuje transkrypcji różnych mówców.

Jednym ze sposobów na obejście tego ograniczenia – bez sięgania po płatne usługi zamiany mowy na tekst – jest zadbanie o to, by każdy plik audio zawierał głos tylko jednej osoby.

Jeśli na przykład pracujesz z nagraniami rozmów telefonicznych, upewnij się, że głosy rozmówców są nagrywane osobno. Dzięki temu możesz transkrybować każdy plik indywidualnie.

W tym ćwiczeniu przepiszesz na tekst wypowiedzi każdego z mówców z pliku audio z wieloma mówcami – osobno dla każdej osoby.

Instrukcje

100 XP
  • Przekaż speakers do funkcji enumerate(), aby iterować po kolejnych mówcach.
  • Wywołaj record() na obiekcie recognizer, aby przekonwertować obiekty AudioFile na AudioData.
  • Użyj funkcji recognize_google(), aby transkrybować każdy z obiektów speaker_audio.