Beberapa Penutur 2
Membedakan beberapa penutur dalam satu berkas audio disebut speaker diarization. Namun, seperti yang Anda lihat, fungsi gratis yang kita gunakan, recognize_google(), tidak memiliki kemampuan untuk mentranskripsi penutur yang berbeda.
Salah satu cara mengatasinya, tanpa menggunakan layanan speech to text berbayar, adalah memastikan berkas audio Anda hanya berisi satu penutur.
Artinya, jika Anda bekerja dengan data panggilan telepon, Anda perlu memastikan penelepon dan penerima direkam secara terpisah. Lalu Anda dapat mentranskripsi setiap berkas secara individual.
Dalam latihan ini, kita akan mentranskripsi masing-masing penutur dalam berkas audio dengan beberapa penutur secara terpisah.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Lisan dengan Python
Petunjuk latihan
- Berikan
speakerske fungsienumerate()untuk melakukan loop melalui penutur yang berbeda. - Panggil
record()padarecognizeruntuk mengonversiAudioFilemenjadiAudioData. - Gunakan
recognize_google()untuk mentranskripsi setiap objekspeaker_audio.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
recognizer = sr.Recognizer()
# Multiple speakers on different files
speakers = [sr.AudioFile("speaker_0.wav"),
sr.AudioFile("speaker_1.wav"),
sr.AudioFile("speaker_2.wav")]
# Transcribe each speaker individually
for i, speaker in enumerate(____):
with speaker as source:
speaker_audio = recognizer.____(source)
print(f"Text from speaker {i}:")
print(recognizer.____(____,
language="en-US"))