1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

動画生成の性能を評価する

マルチモーダルな CLIP モデルを使うと、各動画フレーム画像とプロンプトの類似度を調べて、動画生成パイプラインの性能を評価できます。前の演習で生成した動画がプロンプトにどの程度一致しているかを、これで確認しましょう。

load_video() 関数は diffusers.utils からインポート済みです。clip_score モジュールも torchmetrics からインポートされています。

Instructions

100 XP
  • clip_score() メトリクスから、clip_score_fn() という名前の CLIP スコア関数を作成します。
  • frame_tensors の各フレームテンソルと prompt の間で CLIP スコアを計算します。