1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Předzpracování obrázků

V tomto cvičení použiješ dataset flickr, který obsahuje 30 000 obrázků s popisky, a provedeš předzpracování obrázků. Tenhle krok je nutný k tomu, aby byla obrazová data vhodná pro inferenci s modely z Hugging Face – například pro generování textu z obrázků. V tomto případě vygeneruješ textový popisek k tomuto obrázku:

Photo of 2 people with 1 playing the guitar

Dataset (dataset) byl načten s touto strukturou:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Model pro tvorbu popisků obrázků (model) byl načten.

Pokyny

100 XP
  • Načti obrázek z prvku na indexu 5 v datasetu.
  • Načti procesor obrázků (BlipProcessor) předtrénovaného modelu: Salesforce/blip-image-captioning-base.
  • Spusť procesor na image a nezapomeň specifikovat, že jsou vyžadovány PyTorch tensory (pt).
  • Pomocí metody .generate() vytvoř popisek s využitím model.