cvičení

Vytváření řečových embeddingů

Čas zakódovat audio pole do speaker embeddingu! Speaker embeddingy obsahují informace o tom, jak přizpůsobit generované audio konkrétnímu mluvčímu, a jsou nezbytné pro generování fine-tunovaného audia.

Předtrénovaný model spkrec-xvect-voxceleb (speaker_model) a dataset VCTK (dataset) jsou již načtené.

Pokyny

100 XP

Doplň definici funkce create_speaker_embedding() tak, aby počítala surový embedding z waveform pomocí speaker_model.
Extrahuj audio pole z datového bodu na indexu 10 v dataset.
Vypočítej speaker embedding z audio pole pomocí funkce create_speaker_embedding().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení