画像の前処理

この演習では、30,000 枚の画像とそれに対応するキャプションを含む flickr データセットを使って、画像に対する前処理を行います。前処理は、画像からのテキスト生成など、Hugging Face のモデルタスクで推論できる形式に画像データを整えるために必要です。ここでは次の画像に対してテキストキャプションを生成します。

Photo of 2 people with 1 playing the guitar

データセット（dataset）は次の構造で読み込まれています。

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

画像キャプション生成モデル（model）は読み込まれています。

データセットのインデックス 5 の要素から画像を読み込みます。
事前学習済みモデル Salesforce/blip-image-captioning-base の画像プロセッサ（BlipProcessor）を読み込みます。
image に対してプロセッサを実行し、PyTorch テンソル（pt）を返すように指定します。
.generate() メソッドを使って、model でキャプションを生成します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習