Création d'intégrations vocales

Il est temps d'encoder un tableau audio dans un encodage de haut-parleur. Les intégrations de locuteurs contiennent des informations sur la manière de personnaliser l'audio généré pour un locuteur donné et sont essentielles pour générer un son précis.

Le modèle pré-entraîné spkrec-xvect-voxceleb (speaker_model) et l'ensemble de données VCTK (dataset) ont été chargés pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Compléter la définition de la fonction « create_speaker_embedding() » en calculant l'encodage brut à partir de l'waveform e à l'aide de la fonction « speaker_model ».
Extrayez le tableau audio du point de données à l'index 10 de l'dataset.
Calculez l'intégration d'un haut-parleur à partir du tableau audio à l'aide de la fonction create_speaker_embedding().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def create_speaker_embedding(waveform):
    with torch.no_grad():
        # Calculate the raw embedding from the speaker_model
        speaker_embeddings = ____.____(torch.tensor(____))
        
        speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
        speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
    return speaker_embeddings

# Extract the audio array from the dataset
audio_array = dataset[10]["____"]["____"]

# Calculate the speaker_embedding from the datapoint
speaker_embedding = ____(____)
print(speaker_embedding.shape)

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Explorez le hub de modèles Hugging Face, transformez du texte brut, des données audio et visuelles en formats compatibles avec l'IA. Découvrez comment trouver les modèles les plus récents et les plus populaires pour des tâches telles que la génération de texte et exploitez la puissance des pipelines préconfigurés.

Exercise 1: Navigation dans le modèle Hugging Face Exercise 2: Combien de modèles ?Exercise 3: Identification du modèle de conversion texte-image le plus populaire Exercise 4: Prétraitement de différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Traitement préalable des images Exercise 7: Prétraitement audio Exercise 8: Tâches et évaluations du pipeline Exercise 9: Génération de légendes pour les pipelines Exercise 10: Transmission d'arguments clés Exercise 11: Évaluation du modèle sur un ensemble de données personnalisé

Apprenez à maîtriser les différentes modalités grâce à des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d'images, explorez la reconnaissance vocale et la synthèse vocale, et découvrez des techniques de réglage fin efficaces. Développez des compétences pratiques grâce aux modèles pré-entraînés de la bibliothèque de transformateurs Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d'images Exercise 3: Détection d'objets Exercise 4: Suppression de l'arrière-plan d'une image Exercise 5: Ajustement des modèles de vision par ordinateur Exercise 6: Optimisation du CV : préparation de l'ensemble de données Exercise 7: Ajustement du CV : classes de modèles Exercise 8: Ajustement du CV : configuration du formateur Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance vocale automatique Exercise 11: Création d'intégrations vocales

Exercice en cours

Exercise 12: Débruitage audio Exercise 13: Optimisation des modèles de synthèse vocale Exercise 14: Optimisation d'un modèle de synthèse vocale Exercise 15: Génération de nouveaux discours

Apprenez à fusionner des informations visuelles, textuelles et audio pour enrichir vos applications d'IA. Maîtrisez des techniques telles que CLIP pour la classification sans apprentissage, développez des analyseurs de sentiments capables de voir et de lire, et créez des détecteurs d'émotions qui combinent les expressions faciales et la voix. Dépassez la pensée monomodale avec vos modèles d'IA.

Exercise 1: Classification d'images sans apprentissage préalable Exercise 2: Apprentissage sans données d'entraînement avec CLIP Exercise 3: Évaluation automatisée de la qualité des sous-titres Exercise 4: Analyse multimodale des sentiments Exercise 5: Modèles de langage visuel incitatif (VLMs)Exercise 6: Classification multimodale des sentiments avec Qwen Exercise 7: Classification vidéo sans apprentissage préalable Exercise 8: Séparation audio-vidéo Exercise 9: Analyse des sentiments dans les vidéos avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez les techniques d'IA de pointe pour générer et manipuler du contenu visuel à partir de suggestions textuelles. Créez des images exceptionnelles, modifiez vos photos de manière intelligente et développez des systèmes performants de questions-réponses pour les images et les documents. Transformez votre vision créative en réalité numérique grâce à l'IA multimodale.

Exercise 1: Réponse visuelle à une question (VQA)Exercise 2: VQA avec des transformateurs de langage visuel (ViLT)Exercise 3: VQA de documents avec LayoutLM Exercise 4: Édition d'images à l'aide de modèles de diffusion Exercise 5: Modification personnalisée des images Exercise 6: Restauration d'images Exercise 7: Génération de vidéos Exercise 8: Créez une vidéo !Exercise 9: Évaluation des performances de génération vidéo Exercise 10: Félicitations !