Similaridade de spans com spaCy
Determinar a similaridade semântica pode ajudar você a classificar textos em categorias predefinidas, detectar textos relevantes ou sinalizar conteúdo duplicado. Neste exercício, você vai praticar o cálculo das similaridades semânticas de spans de um documento em relação a um documento dado. O objetivo é encontrar o Span de três tokens mais relevante para canned dog food.
A categoria canned dog food já está armazenada em category. Uma string de texto já está em text e o modelo en_core_web_md está carregado como nlp. O contêiner Doc de text também já foi criado e armazenado em document.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Crie um contêiner
Docparacategorye armazene emcategory_document. - Imprima a pontuação de similaridade de um
Spandado e decategory_document, arredondada para três casas decimais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a Doc container for the category
category = "canned dog food"
category_document = nlp(____)
# Print similarity score of a given Span and category_document
document_span = document[0:3]
print(f"Semantic similarity with", document_span.text, ":", round(document_span.____(____), 3))