ćwiczenie

Generowanie nowej mowy

Czas dopełnić swoją wiedzę na temat korzystania z modeli audio Hugging Face! Użyjesz wytrenowanego modelu, aby wygenerować nową mowę dla wybranego głosu. Jako podstawę nowego nagrania wybierzesz głos z korpusu VCTK.

dataset oraz model SpeechT5ForTextToSpeech (model) zostały już załadowane, a do wizualizacji udostępniono funkcję make_spectogram().

Instrukcje

100 XP

Załaduj przykładowe osadzenie mówcy (speaker embedding) z indeksu 5 testowego dataset.
Wygeneruj mowę na podstawie przetworzonego tekstu, podając inputs, speaker_embedding oraz vocoder.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie