Segmentación con Mask R-CNN preentrenada
En este ejercicio, usarás el modelo Mask R-CNN preentrenado para realizar segmentación por instancias en la siguiente imagen de dos gatos.

El modelo que vas a usar se ha preentrenado en el conjunto de datos COCO, que contiene imágenes de objetos comunes, incluidos animales. Gracias a esto, el modelo debería reconocer gatos desde el primer momento, sin necesidad de ajustar finamente el modelo.
Tu tarea es cargar el modelo y la imagen de los dos gatos, preparar la imagen y pasársela al modelo para obtener las predicciones. Image de PIL, torch, transforms de torchvision y maskrcnn_resnet50_fpn ya se han importado por ti.
Este ejercicio forma parte del curso
Deep Learning para imágenes con PyTorch
Instrucciones del ejercicio
- Carga en
modella Mask R-CNNpretrainedusandomaskrcnn_resnet50_fpn(). - Transforma la imagen de los dos gatos a un tensor y aplícale
unsqueeze. - Realiza la inferencia pasando la imagen al modelo y asigna la salida a
prediction.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load a pre-trained Mask R-CNN model
model = ____(____)
model.eval()
# Load an image and convert to a tensor
image = Image.open("two_cats.jpg")
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).____
# Perform inference
with torch.no_grad():
prediction = ____
print(prediction)