CLIP と CLAP による動画の感情分析

これまでに用意した広告動画を CLIP/CLAP で感情分析していきます。マルチモーダルに感情を分類するため、これらのモデルの予測を平均して組み合わせます（これは「late fusion」と呼ばれます）。

先ほど作成した動画（video）と対応する音声（audio_sample）は引き続き利用できます。

Frames from the Bounce TV commercial

感情のリストは emotions として読み込まれています。

laion/clap-htsat-unfused モデルを使って、zero-shot-audio-classification 用のオーディオ分類パイプラインを作成します。
openai/clip-vit-base-patch32 モデル（動画で使ったものの小型版）を使って、zero-shot-image-classification 用の画像分類パイプラインを作成します。
画像分類パイプラインを使って、動画内の各画像に対する予測を生成します。
オーディオ分類パイプラインを使って、audio_sample に対する予測を生成します。