1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

CLIP と CLAP による動画の感情分析

これまでに用意した広告動画を CLIP/CLAP で感情分析していきます。マルチモーダルに感情を分類するため、これらのモデルの予測を平均して組み合わせます(これは「late fusion」と呼ばれます)。

先ほど作成した動画(video)と対応する音声(audio_sample)は引き続き利用できます。

Frames from the Bounce TV commercial

感情のリストは emotions として読み込まれています。

Instructions

100 XP
  • laion/clap-htsat-unfused モデルを使って、zero-shot-audio-classification 用のオーディオ分類パイプラインを作成します。
  • openai/clip-vit-base-patch32 モデル(動画で使ったものの小型版)を使って、zero-shot-image-classification 用の画像分類パイプラインを作成します。
  • 画像分類パイプラインを使って、動画内の各画像に対する予測を生成します。
  • オーディオ分類パイプラインを使って、audio_sample に対する予測を生成します。