演習

テキストのトークナイズ

この演習では、30,000枚の画像とそれに対応するキャプションを含む flickr データセットを使って、テキストの前処理を行います。これはテキスト分類などのタスクでモデルが利用できる形にするために必要です。特に、Hugging Face のモデルで画像に対するキャプションの適合性を確認できる、マルチモーダルなアプリケーションで役立ちます。

データセット（dataset）は読み込まれており、AutoTokenizer はインポート済みです。

指示1 / 2

undefined XP

1

2

dataset のインデックス 5 の画像から、最初の "caption" を読み込みます。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示1 / 2

演習