1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Prompting modeli językowo-wizyjnych (VLM)

W ciągu dwóch kolejnych ćwiczeń użyjesz modelu multimodalnego do analizy sentymentu artykułu prasowego i odpowiadającego mu zdjęcia nagłówkowego z zbioru danych BBC News na Hugging Face:

Karta zbioru danych BBC News

Na początek przygotujesz szablon czatu dla modelu, który zawiera zarówno obraz, jak i treść artykułu. Zbiór danych (dataset) oraz zdjęcie nagłówkowe (image) zostały już wczytane.

Instrukcje

100 XP
  • Wczytaj treść artykułu (content) z punktu danych o indeksie 6 w zbiorze dataset.
  • Uzupełnij zapytanie tekstowe, wstawiając content do text_query za pomocą f-stringów.
  • Dodaj image oraz text_query do szablonu czatu, podając typ zawartości text_query jako "text".