ćwiczenie

Tworzenie osadzeń mówcy

Czas zakodować tablicę audio w osadzenie mówcy! Osadzenia mówcy (speaker embeddings) zawierają informacje o tym, jak spersonalizować generowane audio do konkretnego mówcy – są niezbędne do generowania dopasowanego audio.

Wstępnie wytrenowany model spkrec-xvect-voxceleb (speaker_model) oraz zbiór danych VCTK (dataset) zostały już załadowane.

Instrukcje

100 XP

Uzupełnij definicję funkcji create_speaker_embedding(), obliczając surowe osadzenie z waveform przy użyciu speaker_model.
Wyodrębnij tablicę audio z punktu danych o indeksie 10 ze zbioru dataset.
Oblicz osadzenie mówcy z tablicy audio, korzystając z funkcji create_speaker_embedding().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie