1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Tvorba promptů pro Vision Language Models (VLMs)

V následujících dvou cvičeních použiješ multi-modální model k analýze sentimentu zpravodajského článku a odpovídajícího obrázku z titulku ze BBC News datasetu na Hugging Face:

BBC News dataset card

Nejprve připravíš šablonu chatu pro model, která bude obsahovat jak obrázek, tak samotný článek. Dataset (dataset) a obrázek z titulku (image) jsou už načtené.

Pokyny

100 XP
  • Načti obsah článku (content) z datového bodu na indexu 6 v dataset.
  • Dokonči textový dotaz – vlož content do text_query pomocí f-stringů.
  • Přidej image a text_query do šablony chatu a jako typ obsahu pro text_query uveď "text".