Generación de nuevo discurso
¡Es hora de completar tu dominio del uso de los modelos de audio de Hugging Face! Utilizarás un modelo ajustado para generar nuevo discurso para una voz determinada. Elegirás una voz del corpus VCTK como base para el nuevo audio.
Los modelos « dataset » y « SpeechT5ForTextToSpeech » (model) ya se han cargado, y se ha proporcionado una función « make_spectogram() » para ayudar a gráficarlos.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Carga una muestra de incrustación de altavoz desde el índice
5de la pruebadataset. - Genera el discurso a partir del texto procesado especificando el
inputs,speaker_embeddingyvocoder.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)