ćwiczenie

Prompting modeli językowo-wizyjnych (VLM)

W ciągu dwóch kolejnych ćwiczeń użyjesz modelu multimodalnego do analizy sentymentu artykułu prasowego i odpowiadającego mu zdjęcia nagłówkowego z zbioru danych BBC News na Hugging Face:

Karta zbioru danych BBC News

Na początek przygotujesz szablon czatu dla modelu, który zawiera zarówno obraz, jak i treść artykułu. Zbiór danych (dataset) oraz zdjęcie nagłówkowe (image) zostały już wczytane.

Instrukcje

100 XP

Wczytaj treść artykułu (content) z punktu danych o indeksie 6 w zbiorze dataset.
Uzupełnij zapytanie tekstowe, wstawiając content do text_query za pomocą f-stringów.
Dodaj image oraz text_query do szablonu czatu, podając typ zawartości text_query jako "text".

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie