Cosinus-similariteitsmatrix van een corpus
In deze oefening krijg je een corpus, een lijst met vijf zinnen. Het corpus wordt in de console afgedrukt. Je moet de cosinus-similariteitsmatrix berekenen met de paargewijze cosinus-similarityscores voor elk zinnenpaar (gevectoriseerd met tf-idf).
Onthoud: de waarde op de i-de rij en j-de kolom van een similariteitsmatrix geeft de similarityscore voor de i-de en j-de vector aan.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Initialiseer een instantie van
TfidfVectorizer. Noem dezetfidf_vectorizer. - Gebruik
fit_transform()om de tf-idf-vectoren voorcorpuste genereren. Noem dittfidf_matrix. - Gebruik
cosine_similarity()en geeftfidf_matrixdoor om de cosinus-similariteitsmatrixcosine_simte berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)