이미지 전처리

이번 연습에서는 30,000장의 이미지와 캡션이 포함된 flickr 데이터셋을 사용해 이미지 전처리를 수행해 볼 거예요. 전처리는 이미지에서 텍스트 생성 같은 Hugging Face 모델 태스크로 추론할 수 있도록 이미지 데이터를 적합한 형식으로 바꾸는 과정이에요. 여기서는 다음 이미지에 대한 텍스트 캡션을 생성해 보겠습니다:

Photo of 2 people with 1 playing the guitar

데이터셋(dataset)은 다음과 같은 구조로 로드되어 있어요:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

이미지 캡셔닝 모델(model)도 로드되어 있어요.

데이터셋의 인덱스 5 요소에서 이미지를 로드하세요.
사전 학습된 모델 Salesforce/blip-image-captioning-base의 이미지 프로세서(BlipProcessor)를 로드하세요.
image에 대해 프로세서를 실행하되, PyTorch 텐서(pt)가 필요하다고 지정하세요.
.generate() 메서드를 사용하여 model로 캡션을 생성하세요.

연습 문제

이미지 전처리

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제