Aan de slagGa gratis aan de slag

Cosinus-similariteitsmatrix van een corpus

In deze oefening krijg je een corpus, een lijst met vijf zinnen. Het corpus wordt in de console afgedrukt. Je moet de cosinus-similariteitsmatrix berekenen met de paargewijze cosinus-similarityscores voor elk zinnenpaar (gevectoriseerd met tf-idf).

Onthoud: de waarde op de i-de rij en j-de kolom van een similariteitsmatrix geeft de similarityscore voor de i-de en j-de vector aan.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Cursus bekijken

Oefeninstructies

  • Initialiseer een instantie van TfidfVectorizer. Noem deze tfidf_vectorizer.
  • Gebruik fit_transform() om de tf-idf-vectoren voor corpus te genereren. Noem dit tfidf_matrix.
  • Gebruik cosine_similarity() en geef tfidf_matrix door om de cosinus-similariteitsmatrix cosine_sim te berekenen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)
Code bewerken en uitvoeren