Matrice de similarité cosinus d’un corpus
Dans cet exercice, on vous fournit un corpus, c’est‑à‑dire une liste de cinq phrases. Le corpus est affiché dans la console. Vous devez calculer la matrice de similarité cosinus, qui contient la similarité cosinus par paire pour chaque combinaison de phrases (vectorisées avec tf‑idf).
Rappel : la valeur à la iᵉ ligne et jᵉ colonne d’une matrice de similarité correspond au score de similarité entre les vecteurs i et j.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Initialisez une instance de
TfidfVectorizer. Nommez‑latfidf_vectorizer. - À l’aide de
fit_transform(), générez les vecteurs tf‑idf pourcorpus. Nommez le résultattfidf_matrix. - Utilisez
cosine_similarity()et passeztfidf_matrixpour calculer la matrice de similarité cosinuscosine_sim.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)