Memisahkan audio stereo menjadi mono dengan PyDub

Jika Anda mencoba mentranskripsikan panggilan telepon, ada kemungkinan rekamannya dalam format stereo, dengan satu penutur pada setiap kanal.

Seperti yang telah Anda lihat, sulit untuk mentranskripsikan berkas audio dengan lebih dari satu penutur. Salah satu solusinya adalah memisahkan berkas audio dengan banyak penutur menjadi berkas-berkas tunggal yang masing-masing berisi satu penutur.

Fungsi split_to_mono() dari PyDub dapat membantu. Ketika dipanggil pada sebuah AudioSegment yang direkam dalam stereo, fungsi ini mengembalikan daftar berisi dua AudioSegment terpisah dalam format mono, masing-masing untuk setiap kanal.

Dalam latihan ini, Anda akan mempraktikkannya dengan membagi rekaman panggilan telepon stereo (stereo_phone_call.wav) menjadi kanal 1 dan kanal 2. Ini memisahkan kedua penutur, sehingga memudahkan proses transkripsi.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Lisan dengan Python

Instruksi latihan

Impor AudioSegment dari pydub.
Buat instance AudioSegment bernama stereo_phone_call dengan stereo_phone_call.wav.
Pisahkan stereo_phone_call menjadi channels menggunakan split_to_mono() dan periksa kanal dari keluaran yang dihasilkan.
Simpan setiap kanal ke variabel baru, phone_call_channel_1 dan phone_call_channel_2.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import AudioSegment
from ____ import ____

# Import stereo audio file and check channels
stereo_phone_call = AudioSegment.from_file(____)
print(f"Stereo number channels: {stereo_phone_call.channels}")

# Split stereo phone call and check channels
channels = stereo_phone_call.____
print(f"Split number channels: {channels[0].____}, {channels[1].____}")

# Save new channels separately
phone_call_channel_1 = channels[0]
phone_call_channel_2 = ____

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Lisan dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Berkas audio berbeda dengan sebagian besar jenis data lainnya. Sebelum dapat digunakan, berkas tersebut memerlukan prapemrosesan. Di bab ini, Anda akan mempelajari langkah awal bekerja dengan berkas ujaran dengan mengonversi dua berkas audio berbeda menjadi gelombang suara dan membandingkannya secara visual.

Exercise 1: Pengantar data audio di Python Exercise 2: Frekuensi yang tepat Exercise 3: Mengimpor berkas audio dengan Python Exercise 4: Mengonversi byte gelombang suara menjadi bilangan bulat Exercise 5: Tipe data yang tepat Exercise 6: Byte ke bilangan bulat Exercise 7: Menentukan cap waktu (time stamp)Exercise 8: Memvisualisasikan gelombang suara Exercise 9: Menjaga konsistensi Exercise 10: Memproses data audio dengan Python

Pengenalan ujaran masih jauh dari sempurna. Namun pustaka SpeechRecognition menyediakan cara mudah untuk berinteraksi dengan banyak API speech-to-text. Di bagian ini, Anda akan mempelajari cara menggunakan pustaka SpeechRecognition untuk mulai mengonversi bahasa lisan dalam berkas audio Anda menjadi teks dengan mudah.

Exercise 1: Pustaka SpeechRecognition di Python Exercise 2: Pilih API speech_recognition yang salah Exercise 3: Menggunakan pustaka SpeechRecognition Exercise 4: Menggunakan kelas Recognizer Exercise 5: Membaca berkas audio dengan SpeechRecognition Exercise 6: Dari AudioFile ke AudioData Exercise 7: Merekam audio yang kita perlukan Exercise 8: Menangani berbagai jenis audio Exercise 9: Beragam jenis audio Exercise 10: Beberapa Penutur 1 Exercise 11: Beberapa Penutur 2 Exercise 12: Bekerja dengan audio berisik

Tidak semua berkas audio memiliki bentuk, ukuran, atau format yang sama. Untungnya, pustaka PyDub oleh James Robert menyediakan alat yang dapat Anda gunakan untuk secara terprogram mengubah berbagai atribut berkas audio seperti laju bingkai, jumlah kanal, format berkas, dan lainnya. Di bab ini, Anda akan mempelajari cara menggunakan pustaka yang membantu ini untuk memastikan semua berkas audio Anda berada dalam kondisi yang tepat untuk ditranskripsi.

Exercise 1: Pengantar PyDub Exercise 2: Impor berkas audio dengan PyDub Exercise 3: Memutar berkas audio dengan PyDub Exercise 4: Parameter audio dengan PyDub Exercise 5: Menyesuaikan parameter audio Exercise 6: Memanipulasi berkas audio dengan PyDub Exercise 7: Dikecilkan... lalu dibesarkan Exercise 8: Menormalkan berkas audio dengan PyDub Exercise 9: Memotong dan menggabungkan file audio Exercise 10: Memisahkan audio stereo menjadi mono dengan PyDub

Latihan Saat Ini

Exercise 11: Mengonversi dan menyimpan berkas audio dengan PyDub Exercise 12: Mengekspor dan mengubah format berkas audio Exercise 13: Memanipulasi banyak berkas audio dengan PyDub Exercise 14: Alur kerja pemrosesan audio

Di bab ini, Anda akan menggabungkan semua yang telah dipelajari dengan membangun proyek bukti konsep pemrosesan ujaran untuk sebuah perusahaan teknologi, Acme Studios. Anda akan mulai dengan mentranskripsi cuplikan audio panggilan dukungan pelanggan menjadi teks. Lalu Anda akan melakukan analisis sentimen menggunakan NLTK, pengenalan entitas bernama menggunakan spaCy, dan klasifikasi teks menggunakan scikit-learn pada teks hasil transkripsi.

Exercise 1: Membuat fungsi bantu transkripsi Exercise 2: Mengonversi audio ke format yang tepat Exercise 3: Menemukan statistik PyDub Exercise 4: Transkripsi audio dengan satu baris Exercise 5: Menggunakan fungsi pembantu yang telah Anda buat Exercise 6: Analisis sentimen pada teks bahasa lisan Exercise 7: Menganalisis sentimen dari sebuah panggilan telepon Exercise 8: Analisis sentimen pada teks terformat Exercise 9: Pengenalan entitas bernama pada teks hasil transkripsi Exercise 10: Pengenalan entitas bernama di spaCy Exercise 11: Membuat named entity kustom di spaCy Exercise 12: Mengklasifikasikan ucapan yang ditranskripsi dengan Sklearn Exercise 13: Menyiapkan file audio untuk klasifikasi teks Exercise 14: Transkripsi cuplikan panggilan telepon Exercise 15: Mengorganisasi data transkrip panggilan telepon Exercise 16: Buat pengklasifikasi teks bahasa lisan Exercise 17: Selamat!