1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Tworzenie osadzeń mówcy

Czas zakodować tablicę audio w osadzenie mówcy! Osadzenia mówcy (speaker embeddings) zawierają informacje o tym, jak spersonalizować generowane audio do konkretnego mówcy – są niezbędne do generowania dopasowanego audio.

Wstępnie wytrenowany model spkrec-xvect-voxceleb (speaker_model) oraz zbiór danych VCTK (dataset) zostały już załadowane.

Instrukcje

100 XP
  • Uzupełnij definicję funkcji create_speaker_embedding(), obliczając surowe osadzenie z waveform przy użyciu speaker_model.
  • Wyodrębnij tablicę audio z punktu danych o indeksie 10 ze zbioru dataset.
  • Oblicz osadzenie mówcy z tablicy audio, korzystając z funkcji create_speaker_embedding().