Segmentando com Mask R-CNN pré-treinado

Neste exercício, você vai usar o modelo Mask R-CNN pré-treinado para realizar segmentação de instâncias na imagem a seguir com dois gatos.

two cats image

O modelo que você vai usar foi pré-treinado no COCO dataset, que contém imagens de objetos comuns, incluindo animais. Graças a isso, o modelo deve reconhecer gatos imediatamente, sem precisar de fine-tuning.

Sua tarefa é carregar o modelo e a imagem dos dois gatos, preparar a imagem e passá-la ao modelo para obter as previsões. Image de PIL, torch, transforms de torchvision e maskrcnn_resnet50_fpn já foram importados para você.

Este exercício faz parte do curso

Deep Learning para Imagens com PyTorch

Ver curso

Instruções do exercício

Carregue o Mask R-CNN pretrained em model usando maskrcnn_resnet50_fpn().
Transforme a imagem dos dois gatos em um tensor e aplique o unsqueeze.
Faça a inferência passando a imagem para o modelo e atribua a saída a prediction.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a pre-trained Mask R-CNN model
model = ____(____)
model.eval()

# Load an image and convert to a tensor
image = Image.open("two_cats.jpg")
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).____

# Perform inference
with torch.no_grad():
    prediction = ____
    print(prediction)

Editar e executar o código