1. Învăţa
  2. /
  3. Courses
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

exercise

Tiền xử lý âm thanh

Trong bài tập này, bạn sẽ học cách điều chỉnh tần số lấy mẫu của dữ liệu âm thanh, cũng như cách dùng bộ tiền xử lý tự động. Bạn sẽ làm việc với VCTK Corpus, bao gồm khoảng 44 giờ dữ liệu giọng nói từ 110 người nói tiếng Anh với nhiều giọng khác nhau.

dataset đã được nạp sẵn.

Instrucţiuni

100 XP
  • Lấy mẫu lại âm thanh về tần số 16.000 Hz trong dataset bằng phương thức .cast_column().
  • Tải bộ xử lý âm thanh (audio processor) dùng model pretrained openai/whisper-small.
  • Tiền xử lý dữ liệu âm thanh của điểm dữ liệu đầu tiên, chỉ định cùng tần số lấy mẫu và padding=True.