Ajuste de un modelo de conversión de texto a voz
Trabajarás con el corpus VCTK, que incluye alrededor de 44 horas de datos de voz pronunciados por hablantes de inglés con diversos acentos, para perfeccionar un modelo de conversión de texto a voz que reproduzca los acentos regionales.
dataset SpeechT5ForTextToSpeech Seq2SeqTrainingArguments Seq2SeqTrainer El paquete de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la biblioteca de funciones de la Se ha predefinido un recopilador de datos (data_collator).
No llames al .train() en la configuración del entrenador, ya que este código agotará el tiempo de espera en este entorno.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Carga el modelo preentrenado
microsoft/speecht5_ttsutilizandoSpeechT5ForTextToSpeech. - Crea una instancia de
Seq2SeqTrainingArgumentscon:gradient_accumulation_stepsestablecido en8,learning_rateestablecido en0.00001,warmup_stepsestablecido en500ymax_stepsestablecido en4000. - Configura el entrenador con los nuevos argumentos de entrenamiento y los datos, el archivo «
model» y el archivo «processor» proporcionados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)