tf-idf-vectoren voor TED-talks
In deze oefening krijg je een corpus ted met de transcripties van 500 TED-talks. Je taak is om de tf-idf-vectoren voor deze talks te genereren.
In een latere les gebruiken we deze vectoren om aanbevelingen te maken voor vergelijkbare talks op basis van de transcriptie.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Importeer
TfidfVectorizeruitsklearn. - Maak een
TfidfVectorizer-object. Noem hetvectorizer. - Genereer
tfidf_matrixvoortedmet de methodefit_transform().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import TfidfVectorizer
from ____ import ____
# Create TfidfVectorizer object
____
# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)
# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)