1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Preprocesarea imaginilor

În acest exercițiu, vei folosi setul de date flickr, care conține 30.000 de imagini și descrieri asociate, pentru a efectua operații de preprocesare pe imagini. Această preprocesare este necesară pentru ca datele vizuale să fie compatibile cu inferența prin modelele Hugging Face, cum ar fi generarea de text din imagini. În acest caz, vei genera o descriere text pentru această imagine:

Fotografie cu 2 persoane, una cântând la chitară

Setul de date (dataset) a fost încărcat cu următoarea structură:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Modelul de descriere a imaginilor (model) a fost încărcat.

Instrucțiuni

100 XP
  • Încarcă imaginea din elementul de la indexul 5 al setului de date.
  • Încarcă procesorul de imagini (BlipProcessor) al modelului preantrenat: Salesforce/blip-image-captioning-base.
  • Aplică procesorul pe image, asigurându-te că specifici că sunt necesari tensori PyTorch (pt).
  • Folosește metoda .generate() pentru a genera o descriere cu ajutorul model.