Mulai sekarangMulai gratis

Praproses himpunan data audio

Anda sedang meningkatkan aplikasi pertanian presisi dengan memungkinkan petani mengontrol mesin mereka melalui perintah suara. Sistem harus mengenali kata kunci dalam perintah seperti "Turn on the sprinkler irrigation system."

Anda akan memanfaatkan himpunan data keyword spotting dengan klip audio berisi kata kunci seperti "on." Praproses berkas audio agar dapat digunakan dengan model Transformer pratatar yang telah dilatih sebelumnya!

Sebagian data sudah dimuat:

  • dataset berisi contoh himpunan data pelatihan dari berkas audio. Himpunan ini sudah memiliki split train, jadi Anda tidak perlu menentukan train saat menggunakan dataset.
  • AutoFeatureExtractor telah diimpor dari transformers.
  • model sama dengan facebook/wav2vec2-base.
  • max_duration ditetapkan sebesar 1 detik.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Lihat Kursus

Instruksi latihan

  • Muat feature_extractor pratatar menggunakan kelas AutoFeatureExtractor.
  • Atur sampling_rate menggunakan laju dari feature_extractor.
  • Atur max_length untuk audio_arrays menggunakan max_duration.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)
Edit dan Jalankan Kode