CommencerCommencer gratuitement

Générer une nouvelle parole

Il est temps d’achever votre maîtrise des modèles audio Hugging Face ! Vous allez utiliser un modèle affiné pour générer une nouvelle parole à partir d’une voix donnée. Vous choisirez une voix du VCTK Corpus comme base pour le nouvel audio.

Le dataset et le modèle SpeechT5ForTextToSpeech (model) ont déjà été chargés, et une fonction make_spectogram() est fournie pour vous aider à tracer les graphiques.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez un échantillon d’« speaker embedding » à l’index 5 du dataset de test.
  • Générez la parole à partir du texte prétraité en spécifiant inputs, speaker_embedding et vocoder.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Modifier et exécuter le code