CommencerCommencer gratuitement

Matrice de similarité cosinus d’un corpus

Dans cet exercice, on vous fournit un corpus, c’est‑à‑dire une liste de cinq phrases. Le corpus est affiché dans la console. Vous devez calculer la matrice de similarité cosinus, qui contient la similarité cosinus par paire pour chaque combinaison de phrases (vectorisées avec tf‑idf).

Rappel : la valeur à la iᵉ ligne et jᵉ colonne d’une matrice de similarité correspond au score de similarité entre les vecteurs i et j.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Initialisez une instance de TfidfVectorizer. Nommez‑la tfidf_vectorizer.
  • À l’aide de fit_transform(), générez les vecteurs tf‑idf pour corpus. Nommez le résultat tfidf_matrix.
  • Utilisez cosine_similarity() et passez tfidf_matrix pour calculer la matrice de similarité cosinus cosine_sim.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)
Modifier et exécuter le code