Aan de slagGa gratis aan de slag

Meerdere sprekers 2

Het onderscheiden van meerdere sprekers in één audiobestand heet speaker diarization. Maar zoals je hebt gezien, kan de gratis functie die we gebruiken, recognize_google(), geen verschillende sprekers apart transcriberen.

Een manier om dit te omzeilen, zonder een betaalde speech-to-textservice te gebruiken, is om ervoor te zorgen dat je audiobestanden slechts één spreker bevatten.

Werk je bijvoorbeeld met telefoongesprekken, dan zorg je ervoor dat beller en ontvanger apart worden opgenomen. Daarna kun je elk bestand afzonderlijk transcriberen.

In deze oefening transcriberen we elke spreker in ons audiobestand met meerdere sprekers afzonderlijk.

Deze oefening maakt deel uit van de cursus

Spoken Language Processing in Python

Cursus bekijken

Oefeninstructies

  • Geef speakers door aan de functie enumerate() om over de verschillende sprekers te loopen.
  • Roep record() aan op recognizer om de AudioFiles om te zetten naar AudioData.
  • Gebruik recognize_google() om elk van de speaker_audio-objecten te transcriberen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

recognizer = sr.Recognizer()

# Multiple speakers on different files
speakers = [sr.AudioFile("speaker_0.wav"), 
            sr.AudioFile("speaker_1.wav"), 
            sr.AudioFile("speaker_2.wav")]

# Transcribe each speaker individually
for i, speaker in enumerate(____):
    with speaker as source:
        speaker_audio = recognizer.____(source)
    print(f"Text from speaker {i}:")
    print(recognizer.____(____,
         				  language="en-US"))
Code bewerken en uitvoeren