Segmentación con Mask R-CNN preentrenada

En este ejercicio, usarás el modelo Mask R-CNN preentrenado para realizar segmentación por instancias en la siguiente imagen de dos gatos.

two cats image

El modelo que vas a usar se ha preentrenado en el conjunto de datos COCO, que contiene imágenes de objetos comunes, incluidos animales. Gracias a esto, el modelo debería reconocer gatos desde el primer momento, sin necesidad de ajustar finamente el modelo.

Tu tarea es cargar el modelo y la imagen de los dos gatos, preparar la imagen y pasársela al modelo para obtener las predicciones. Image de PIL, torch, transforms de torchvision y maskrcnn_resnet50_fpn ya se han importado por ti.

Este ejercicio forma parte del curso

Deep Learning para imágenes con PyTorch

Ver curso

Instrucciones del ejercicio

Carga en model la Mask R-CNN pretrained usando maskrcnn_resnet50_fpn().
Transforma la imagen de los dos gatos a un tensor y aplícale unsqueeze.
Realiza la inferencia pasando la imagen al modelo y asigna la salida a prediction.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load a pre-trained Mask R-CNN model
model = ____(____)
model.eval()

# Load an image and convert to a tensor
image = Image.open("two_cats.jpg")
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).____

# Perform inference
with torch.no_grad():
    prediction = ____
    print(prediction)

Editar y ejecutar código