Similaridade de spans com spaCy

Determinar a similaridade semântica pode ajudar você a classificar textos em categorias predefinidas, detectar textos relevantes ou sinalizar conteúdo duplicado. Neste exercício, você vai praticar o cálculo das similaridades semânticas de spans de um documento em relação a um documento dado. O objetivo é encontrar o Span de três tokens mais relevante para canned dog food.

A categoria canned dog food já está armazenada em category. Uma string de texto já está em text e o modelo en_core_web_md está carregado como nlp. O contêiner Doc de text também já foi criado e armazenado em document.

Este exercicio faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercicio

Crie um contêiner Doc para category e armazene em category_document.
Imprima a pontuação de similaridade de um Span dado e de category_document, arredondada para três casas decimais.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a Doc container for the category
category = "canned dog food"
category_document = nlp(____)

# Print similarity score of a given Span and category_document
document_span = document[0:3]
print(f"Semantic similarity with", document_span.text, ":", round(document_span.____(____), 3))

Editar e Executar Código