Przetwarzanie wstępne obrazów

W tym ćwiczeniu skorzystasz ze zbioru danych flickr, zawierającego 30 000 obrazów wraz z opisami, aby wykonać operacje przetwarzania wstępnego na obrazach. Przetwarzanie wstępne jest niezbędne, by dane obrazowe nadawały się do wnioskowania z użyciem modeli Hugging Face – na przykład do generowania tekstu na podstawie obrazu. W tym przypadku wygenerujesz tekstowy opis tego zdjęcia:

Photo of 2 people with 1 playing the guitar

Zbiór danych (dataset) został wczytany z następującą strukturą:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Model do generowania opisów obrazów (model) został wczytany.

Wczytaj obraz z elementu o indeksie 5 ze zbioru danych.
Wczytaj procesor obrazów (BlipProcessor) wstępnie wytrenowanego modelu: Salesforce/blip-image-captioning-base.
Uruchom procesor na image, pamiętając o określeniu, że wymagane są tensory PyTorch (pt).
Użyj metody .generate(), aby wygenerować opis z użyciem model.

ćwiczenie

Przetwarzanie wstępne obrazów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie