LoslegenKostenlos loslegen

Video-Stimmungsanalyse mit CLIP CLAP

Jetzt analysierst du die Emotionen in der Werbung, die du vorher mit CLIP/CLAP vorbereitet hast. Um eine multimodale Klassifizierung von Emotionen zu machen, kombinierst du die Vorhersagen dieser Modelle mit dem Mittelwert (das nennt man späte Fusion).

Das Video (video) und die dazugehörige Audiodatei (audio_sample), die du zuvor erstellt hast, sind weiterhin verfügbar:

Bilder aus dem Werbespot von Bounce TV

Eine Liste mit Emotionen wurde als „ emotions “ gespeichert.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Erstell eine Pipeline für die Audio-Klassifizierung für „ zero-shot-audio-classification “ mit dem Modell „ laion/clap-htsat-unfused “.
  • Erstell eine Bildklassifizierungs-Pipeline für „ zero-shot-image-classification “ mit dem Modell „ openai/clip-vit-base-patch32 “ (eine kleinere Version von dem, was wir im Video verwendet haben).
  • Verwende die Bildklassifizierungs-Pipeline, um Vorhersagen für jedes Bild im Video zu machen.
  • Verwende die Audio-Klassifizierer-Pipeline, um Vorhersagen für die „ audio_sample “ zu machen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Make an audio classifier pipeline
audio_classifier = ____(model="____", task="____")

# Make an image classifier pipeline
image_classifier = ____(model="____", task="____")

# Create emotion scores for each video frame
predictions = image_classifier(video, candidate_labels=emotions)
scores = [
    {l['label']: l['score'] for l in prediction}
    for prediction in predictions
]

avg_image_scores = {emotion: sum([s[emotion] for s in scores])/len(scores) for emotion in emotions}

# Make audio scores
audio_scores = ____(____, candidate_labels=____)

audio_scores = {l['label']: l['score'] for l in audio_scores}
multimodal_scores = {emotion: (avg_image_scores[emotion] + audio_scores[emotion])/2 for emotion in emotions}
print(f"Multimodal scores: {multimodal_scores}")
Code bearbeiten und ausführen