MulaiMulai sekarang secara gratis

Beberapa Penutur 2

Membedakan beberapa penutur dalam satu berkas audio disebut speaker diarization. Namun, seperti yang Anda lihat, fungsi gratis yang kita gunakan, recognize_google(), tidak memiliki kemampuan untuk mentranskripsi penutur yang berbeda.

Salah satu cara mengatasinya, tanpa menggunakan layanan speech to text berbayar, adalah memastikan berkas audio Anda hanya berisi satu penutur.

Artinya, jika Anda bekerja dengan data panggilan telepon, Anda perlu memastikan penelepon dan penerima direkam secara terpisah. Lalu Anda dapat mentranskripsi setiap berkas secara individual.

Dalam latihan ini, kita akan mentranskripsi masing-masing penutur dalam berkas audio dengan beberapa penutur secara terpisah.

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Lisan dengan Python

Lihat Kursus

Petunjuk latihan

  • Berikan speakers ke fungsi enumerate() untuk melakukan loop melalui penutur yang berbeda.
  • Panggil record() pada recognizer untuk mengonversi AudioFile menjadi AudioData.
  • Gunakan recognize_google() untuk mentranskripsi setiap objek speaker_audio.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

recognizer = sr.Recognizer()

# Multiple speakers on different files
speakers = [sr.AudioFile("speaker_0.wav"), 
            sr.AudioFile("speaker_1.wav"), 
            sr.AudioFile("speaker_2.wav")]

# Transcribe each speaker individually
for i, speaker in enumerate(____):
    with speaker as source:
        speaker_audio = recognizer.____(source)
    print(f"Text from speaker {i}:")
    print(recognizer.____(____,
         				  language="en-US"))
Edit dan Jalankan Kode