Évaluation des performances de génération vidéo

Vous pouvez évaluer les performances de vos pipelines de génération vidéo à l'aide d'un modèle CLIP multimodal, qui teste la similitude entre chaque image vidéo et la commande. Vous utiliserez cet outil pour évaluer dans quelle mesure la vidéo que vous avez créée lors de l'exercice précédent correspond à la consigne.

La fonction load_video() a été importée pour vous depuis diffusers.utils. Le module clip_score a également été importé depuis torchmetrics.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Configurez une fonction de notation CLIP appelée « clip_score_fn() » à partir de la métrique « clip_score() ».
Calculez le score CLIP entre chaque tenseur d'image dans frame_tensors et prompt.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")

frame_tensors = []
for frame in frames:
    frame = np.array(frame)
    frame_int = (frame * 255).astype("uint8")
    frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
    frame_tensors.append(frame_tensor)

# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()

avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Explorez le hub de modèles Hugging Face, transformez du texte brut, des données audio et visuelles en formats compatibles avec l'IA. Découvrez comment trouver les modèles les plus récents et les plus populaires pour des tâches telles que la génération de texte et exploitez la puissance des pipelines préconfigurés.

Exercise 1: Navigation dans le modèle Hugging Face Exercise 2: Combien de modèles ?Exercise 3: Identification du modèle de conversion texte-image le plus populaire Exercise 4: Prétraitement de différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Traitement préalable des images Exercise 7: Prétraitement audio Exercise 8: Tâches et évaluations du pipeline Exercise 9: Génération de légendes pour les pipelines Exercise 10: Transmission d'arguments clés Exercise 11: Évaluation du modèle sur un ensemble de données personnalisé

Apprenez à maîtriser les différentes modalités grâce à des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d'images, explorez la reconnaissance vocale et la synthèse vocale, et découvrez des techniques de réglage fin efficaces. Développez des compétences pratiques grâce aux modèles pré-entraînés de la bibliothèque de transformateurs Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d'images Exercise 3: Détection d'objets Exercise 4: Suppression de l'arrière-plan d'une image Exercise 5: Ajustement des modèles de vision par ordinateur Exercise 6: Optimisation du CV : préparation de l'ensemble de données Exercise 7: Ajustement du CV : classes de modèles Exercise 8: Ajustement du CV : configuration du formateur Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance vocale automatique Exercise 11: Création d'intégrations vocales Exercise 12: Débruitage audio Exercise 13: Optimisation des modèles de synthèse vocale Exercise 14: Optimisation d'un modèle de synthèse vocale Exercise 15: Génération de nouveaux discours

Apprenez à fusionner des informations visuelles, textuelles et audio pour enrichir vos applications d'IA. Maîtrisez des techniques telles que CLIP pour la classification sans apprentissage, développez des analyseurs de sentiments capables de voir et de lire, et créez des détecteurs d'émotions qui combinent les expressions faciales et la voix. Dépassez la pensée monomodale avec vos modèles d'IA.

Exercise 1: Classification d'images sans apprentissage préalable Exercise 2: Apprentissage sans données d'entraînement avec CLIP Exercise 3: Évaluation automatisée de la qualité des sous-titres Exercise 4: Analyse multimodale des sentiments Exercise 5: Modèles de langage visuel incitatif (VLMs)Exercise 6: Classification multimodale des sentiments avec Qwen Exercise 7: Classification vidéo sans apprentissage préalable Exercise 8: Séparation audio-vidéo Exercise 9: Analyse des sentiments dans les vidéos avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez les techniques d'IA de pointe pour générer et manipuler du contenu visuel à partir de suggestions textuelles. Créez des images exceptionnelles, modifiez vos photos de manière intelligente et développez des systèmes performants de questions-réponses pour les images et les documents. Transformez votre vision créative en réalité numérique grâce à l'IA multimodale.

Exercise 1: Réponse visuelle à une question (VQA)Exercise 2: VQA avec des transformateurs de langage visuel (ViLT)Exercise 3: VQA de documents avec LayoutLM Exercise 4: Édition d'images à l'aide de modèles de diffusion Exercise 5: Modification personnalisée des images Exercise 6: Restauration d'images Exercise 7: Génération de vidéos Exercise 8: Créez une vidéo !Exercise 9: Évaluation des performances de génération vidéo

Exercice en cours

Exercise 10: Félicitations !