Předzpracování obrázků

V tomto cvičení použiješ dataset flickr, který obsahuje 30 000 obrázků s popisky, a provedeš předzpracování obrázků. Tenhle krok je nutný k tomu, aby byla obrazová data vhodná pro inferenci s modely z Hugging Face – například pro generování textu z obrázků. V tomto případě vygeneruješ textový popisek k tomuto obrázku:

Photo of 2 people with 1 playing the guitar

Dataset (dataset) byl načten s touto strukturou:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Model pro tvorbu popisků obrázků (model) byl načten.

Načti obrázek z prvku na indexu 5 v datasetu.
Načti procesor obrázků (BlipProcessor) předtrénovaného modelu: Salesforce/blip-image-captioning-base.
Spusť procesor na image a nezapomeň specifikovat, že jsou vyžadovány PyTorch tensory (pt).
Pomocí metody .generate() vytvoř popisek s využitím model.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení