Optimisation d'un modèle de synthèse vocale

Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par des locuteurs anglophones présentant divers accents, afin d'affiner un modèle de synthèse vocale permettant de reproduire les accents régionaux.

La bibliothèque « dataset » a déjà été chargée et prétraitée, et le module « SpeechT5ForTextToSpeech » a été chargé, tout comme les modules « Seq2SeqTrainingArguments » et « Seq2SeqTrainer ». Un collecteur de données (data_collator) a été prédéfini.

Veuillez ne pas appeler la méthode .train() méthode sur la configuration du formateur, car ce code expirera dans cet environnement.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Chargez le modèle pré-entraîné microsoft/speecht5_tts à l'aide de l'SpeechT5ForTextToSpeech.
Veuillez créer une instance de Seq2SeqTrainingArguments avec : gradient_accumulation_steps défini sur 8, learning_rate défini sur 0.00001, warmup_steps défini sur 500 et max_steps défini sur 4000.
Veuillez configurer le formateur avec les nouveaux arguments de formation, ainsi que l'model, les données et l'processor fournis.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Explorez le hub de modèles Hugging Face, transformez du texte brut, des données audio et visuelles en formats compatibles avec l'IA. Découvrez comment trouver les modèles les plus récents et les plus populaires pour des tâches telles que la génération de texte et exploitez la puissance des pipelines préconfigurés.

Exercise 1: Navigation dans le modèle Hugging Face Exercise 2: Combien de modèles ?Exercise 3: Identification du modèle de conversion texte-image le plus populaire Exercise 4: Prétraitement de différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Traitement préalable des images Exercise 7: Prétraitement audio Exercise 8: Tâches et évaluations du pipeline Exercise 9: Génération de légendes pour les pipelines Exercise 10: Transmission d'arguments clés Exercise 11: Évaluation du modèle sur un ensemble de données personnalisé

Apprenez à maîtriser les différentes modalités grâce à des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d'images, explorez la reconnaissance vocale et la synthèse vocale, et découvrez des techniques de réglage fin efficaces. Développez des compétences pratiques grâce aux modèles pré-entraînés de la bibliothèque de transformateurs Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d'images Exercise 3: Détection d'objets Exercise 4: Suppression de l'arrière-plan d'une image Exercise 5: Ajustement des modèles de vision par ordinateur Exercise 6: Optimisation du CV : préparation de l'ensemble de données Exercise 7: Ajustement du CV : classes de modèles Exercise 8: Ajustement du CV : configuration du formateur Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance vocale automatique Exercise 11: Création d'intégrations vocales Exercise 12: Débruitage audio Exercise 13: Optimisation des modèles de synthèse vocale Exercise 14: Optimisation d'un modèle de synthèse vocale

Exercice en cours

Exercise 15: Génération de nouveaux discours

Apprenez à fusionner des informations visuelles, textuelles et audio pour enrichir vos applications d'IA. Maîtrisez des techniques telles que CLIP pour la classification sans apprentissage, développez des analyseurs de sentiments capables de voir et de lire, et créez des détecteurs d'émotions qui combinent les expressions faciales et la voix. Dépassez la pensée monomodale avec vos modèles d'IA.

Exercise 1: Classification d'images sans apprentissage préalable Exercise 2: Apprentissage sans données d'entraînement avec CLIP Exercise 3: Évaluation automatisée de la qualité des sous-titres Exercise 4: Analyse multimodale des sentiments Exercise 5: Modèles de langage visuel incitatif (VLMs)Exercise 6: Classification multimodale des sentiments avec Qwen Exercise 7: Classification vidéo sans apprentissage préalable Exercise 8: Séparation audio-vidéo Exercise 9: Analyse des sentiments dans les vidéos avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez les techniques d'IA de pointe pour générer et manipuler du contenu visuel à partir de suggestions textuelles. Créez des images exceptionnelles, modifiez vos photos de manière intelligente et développez des systèmes performants de questions-réponses pour les images et les documents. Transformez votre vision créative en réalité numérique grâce à l'IA multimodale.

Exercise 1: Réponse visuelle à une question (VQA)Exercise 2: VQA avec des transformateurs de langage visuel (ViLT)Exercise 3: VQA de documents avec LayoutLM Exercise 4: Édition d'images à l'aide de modèles de diffusion Exercise 5: Modification personnalisée des images Exercise 6: Restauration d'images Exercise 7: Génération de vidéos Exercise 8: Créez une vidéo !Exercise 9: Évaluation des performances de génération vidéo Exercise 10: Félicitations !