1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Tạo speech embedding

Đến lúc mã hóa một mảng âm thanh thành speaker embedding! Speaker embedding chứa thông tin về cách cá nhân hóa audio được tạo theo một người nói cụ thể, và là thành phần thiết yếu để tạo ra audio được fine-tune.

Mô hình pretrained spkrec-xvect-voxceleb (speaker_model) và bộ dữ liệu VCTK (dataset) đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Hoàn thiện định nghĩa hàm create_speaker_embedding() bằng cách tính embedding thô từ waveform bằng speaker_model.
  • Trích xuất mảng âm thanh từ điểm dữ liệu tại chỉ số 10 của dataset.
  • Tính một speaker embedding từ mảng âm thanh bằng hàm create_speaker_embedding().