1. 学ぶ
  2. /
  3. コース
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

演習

画像の前処理

この演習では、30,000 枚の画像とそれに対応するキャプションを含む flickr データセットを使って、画像に対する前処理を行います。前処理は、画像からのテキスト生成など、Hugging Face のモデルタスクで推論できる形式に画像データを整えるために必要です。ここでは次の画像に対してテキストキャプションを生成します。

Photo of 2 people with 1 playing the guitar

データセット(dataset)は次の構造で読み込まれています。

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

画像キャプション生成モデル(model)は読み込まれています。

指示

100 XP
  • データセットのインデックス 5 の要素から画像を読み込みます。
  • 事前学習済みモデル Salesforce/blip-image-captioning-base の画像プロセッサ(BlipProcessor)を読み込みます。
  • image に対してプロセッサを実行し、PyTorch テンソル(pt)を返すように指定します。
  • .generate() メソッドを使って、model でキャプションを生成します。