ComenzarEmpieza gratis

Generación de nuevo discurso

¡Es hora de completar tu dominio del uso de los modelos de audio de Hugging Face! Utilizarás un modelo ajustado para generar nuevo discurso para una voz determinada. Elegirás una voz del corpus VCTK como base para el nuevo audio.

Los modelos « dataset » y « SpeechT5ForTextToSpeech » (model) ya se han cargado, y se ha proporcionado una función « make_spectogram() » para ayudar a gráficarlos.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Carga una muestra de incrustación de altavoz desde el índice 5 de la prueba dataset.
  • Genera el discurso a partir del texto procesado especificando el inputs, speaker_embedding y vocoder.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Editar y ejecutar código