1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Przetwarzanie wstępne obrazów

W tym ćwiczeniu skorzystasz ze zbioru danych flickr, zawierającego 30 000 obrazów wraz z opisami, aby wykonać operacje przetwarzania wstępnego na obrazach. Przetwarzanie wstępne jest niezbędne, by dane obrazowe nadawały się do wnioskowania z użyciem modeli Hugging Face – na przykład do generowania tekstu na podstawie obrazu. W tym przypadku wygenerujesz tekstowy opis tego zdjęcia:

Photo of 2 people with 1 playing the guitar

Zbiór danych (dataset) został wczytany z następującą strukturą:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Model do generowania opisów obrazów (model) został wczytany.

Instrukcje

100 XP
  • Wczytaj obraz z elementu o indeksie 5 ze zbioru danych.
  • Wczytaj procesor obrazów (BlipProcessor) wstępnie wytrenowanego modelu: Salesforce/blip-image-captioning-base.
  • Uruchom procesor na image, pamiętając o określeniu, że wymagane są tensory PyTorch (pt).
  • Użyj metody .generate(), aby wygenerować opis z użyciem model.