ComeçarComece de graça

Gerando nova fala

É hora de dominar o uso dos modelos de áudio do Hugging Face! Você vai usar um modelo bem ajustado pra gerar uma nova fala pra uma voz específica. Você vai escolher uma voz do Corpus VCTK como base para o novo áudio.

Os modelos dataset e SpeechT5ForTextToSpeech (model) já foram carregados, e uma função make_spectogram() foi fornecida para ajudar no traçado.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Carregue uma amostra de incorporação de alto-falante do índice 5 do teste dataset.
  • Crie o discurso a partir do texto processado, especificando o inputs, speaker_embedding e vocoder.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Editar e executar o código