CommencerCommencer gratuitement

Génération de nouveaux discours

Il est temps de parfaire votre maîtrise des modèles audio Hugging Face ! Vous utiliserez un modèle perfectionné pour générer un nouveau discours pour une voix donnée. Vous choisirez une voix dans le corpus VCTK qui servira de base à votre nouvel enregistrement audio.

Les modèles « dataset » et « SpeechT5ForTextToSpeech » (model) ont déjà été chargés, et une fonction « make_spectogram() » a été fournie pour faciliter la création de graphiques.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez un exemple d'intégration de haut-parleur à partir de l'index 5 du fichier test dataset.
  • Générez le discours à partir du texte traité en spécifiant les paramètres « inputs », « speaker_embedding » et « vocoder ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Modifier et exécuter le code