ComenzarEmpieza gratis

Ajuste de un modelo de conversión de texto a voz

Trabajarás con el corpus VCTK, que incluye alrededor de 44 horas de datos de voz pronunciados por hablantes de inglés con diversos acentos, para perfeccionar un modelo de conversión de texto a voz que reproduzca los acentos regionales.

dataset SpeechT5ForTextToSpeech Seq2SeqTrainingArguments Seq2SeqTrainer El paquete de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la Se ha predefinido un recopilador de datos (data_collator).

No llames al .train() en la configuración del entrenador, ya que este código agotará el tiempo de espera en este entorno.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Carga el modelo preentrenado microsoft/speecht5_tts utilizando SpeechT5ForTextToSpeech.
  • Crea una instancia de Seq2SeqTrainingArguments con: gradient_accumulation_steps establecido en 8, learning_rate establecido en 0.00001, warmup_steps establecido en 500 y max_steps establecido en 4000.
  • Configura el entrenador con los nuevos argumentos de entrenamiento y los datos, el archivo « model » y el archivo « processor » proporcionados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Editar y ejecutar código