Détection d'objets

Dans cet exercice, vous utiliserez le même ensemble de données Flickr que précédemment, qui contient 30 000 images et leurs légendes associées. Vous trouverez maintenant les cadres de sélection des objets détectés par le modèle.

Photo de deux personnes, dont une joue de la guitare

L'image d'exemple (image) et le module de pipeline (pipeline) ont été chargés.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Chargez le pipeline d'object-detection s avec le modèle pré-entraîné facebook/detr-resnet-50.
Déterminez l'label e de l'objet détecté.
Déterminez l'score de confiance associée à l'objet détecté.
Déterminez les coordonnées de l'box e délimitant l'objet détecté.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the object-detection pipeline
pipe = pipeline("____", "____", revision="no_timm")
pred = pipe(image)
outputs = pipe(image)

for n, obj in enumerate(outputs):
    # Find the detected label
    label = ____
    # Find the confidence score of the prediction
    confidence = ____
    # Obtain the bounding box coordinates
    box = ____
    
    plot_args = {"linewidth": 1, "edgecolor": colors[n], "facecolor": 'none'}
    rect = patches.Rectangle((box['xmin'], box['ymin']), box['xmax']-box['xmin'], box['ymax']-box['ymin'], **plot_args)
    ax.add_patch(rect)
    print(f"Detected {label} with confidence {confidence:.2f} at ({box['xmin']}, {box['ymin']}) to ({box['xmax']}, {box['ymax']})")

plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Explorez le hub de modèles Hugging Face, transformez du texte brut, des données audio et visuelles en formats compatibles avec l'IA. Découvrez comment trouver les modèles les plus récents et les plus populaires pour des tâches telles que la génération de texte et exploitez la puissance des pipelines préconfigurés.

Exercise 1: Navigation dans le modèle Hugging Face Exercise 2: Combien de modèles ?Exercise 3: Identification du modèle de conversion texte-image le plus populaire Exercise 4: Prétraitement de différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Traitement préalable des images Exercise 7: Prétraitement audio Exercise 8: Tâches et évaluations du pipeline Exercise 9: Génération de légendes pour les pipelines Exercise 10: Transmission d'arguments clés Exercise 11: Évaluation du modèle sur un ensemble de données personnalisé

Apprenez à maîtriser les différentes modalités grâce à des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d'images, explorez la reconnaissance vocale et la synthèse vocale, et découvrez des techniques de réglage fin efficaces. Développez des compétences pratiques grâce aux modèles pré-entraînés de la bibliothèque de transformateurs Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d'images Exercise 3: Détection d'objets

Exercice en cours

Exercise 4: Suppression de l'arrière-plan d'une image Exercise 5: Ajustement des modèles de vision par ordinateur Exercise 6: Optimisation du CV : préparation de l'ensemble de données Exercise 7: Ajustement du CV : classes de modèles Exercise 8: Ajustement du CV : configuration du formateur Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance vocale automatique Exercise 11: Création d'intégrations vocales Exercise 12: Débruitage audio Exercise 13: Optimisation des modèles de synthèse vocale Exercise 14: Optimisation d'un modèle de synthèse vocale Exercise 15: Génération de nouveaux discours

Apprenez à fusionner des informations visuelles, textuelles et audio pour enrichir vos applications d'IA. Maîtrisez des techniques telles que CLIP pour la classification sans apprentissage, développez des analyseurs de sentiments capables de voir et de lire, et créez des détecteurs d'émotions qui combinent les expressions faciales et la voix. Dépassez la pensée monomodale avec vos modèles d'IA.

Exercise 1: Classification d'images sans apprentissage préalable Exercise 2: Apprentissage sans données d'entraînement avec CLIP Exercise 3: Évaluation automatisée de la qualité des sous-titres Exercise 4: Analyse multimodale des sentiments Exercise 5: Modèles de langage visuel incitatif (VLMs)Exercise 6: Classification multimodale des sentiments avec Qwen Exercise 7: Classification vidéo sans apprentissage préalable Exercise 8: Séparation audio-vidéo Exercise 9: Analyse des sentiments dans les vidéos avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez les techniques d'IA de pointe pour générer et manipuler du contenu visuel à partir de suggestions textuelles. Créez des images exceptionnelles, modifiez vos photos de manière intelligente et développez des systèmes performants de questions-réponses pour les images et les documents. Transformez votre vision créative en réalité numérique grâce à l'IA multimodale.

Exercise 1: Réponse visuelle à une question (VQA)Exercise 2: VQA avec des transformateurs de langage visuel (ViLT)Exercise 3: VQA de documents avec LayoutLM Exercise 4: Édition d'images à l'aide de modèles de diffusion Exercise 5: Modification personnalisée des images Exercise 6: Restauration d'images Exercise 7: Génération de vidéos Exercise 8: Créez une vidéo !Exercise 9: Évaluation des performances de génération vidéo Exercise 10: Félicitations !