Similarité de spans avec spaCy
Déterminer la similarité sémantique peut vous aider à classer des textes dans des catégories prédéfinies, à détecter des textes pertinents ou à repérer du contenu dupliqué. Dans cet exercice, vous allez calculer la similarité sémantique de spans d’un document par rapport à un document donné. L’objectif est de trouver le Span de trois tokens le plus pertinent pour canned dog food.
La catégorie canned dog food est fournie dans category. Une chaîne de texte est déjà stockée dans l’objet text et le modèle en_core_web_md est chargé sous nlp. Le conteneur Doc de text est également déjà créé et stocké dans document.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Créez un conteneur
Docpourcategoryet stockez-le danscategory_document. - Affichez le score de similarité entre un
Spandonné etcategory_document, arrondi à trois décimales.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a Doc container for the category
category = "canned dog food"
category_document = nlp(____)
# Print similarity score of a given Span and category_document
document_span = document[0:3]
print(f"Semantic similarity with", document_span.text, ":", round(document_span.____(____), 3))