Aan de slagGa gratis aan de slag

tf-idf-vectoren voor TED-talks

In deze oefening krijg je een corpus ted met de transcripties van 500 TED-talks. Je taak is om de tf-idf-vectoren voor deze talks te genereren.

In een latere les gebruiken we deze vectoren om aanbevelingen te maken voor vergelijkbare talks op basis van de transcriptie.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Cursus bekijken

Oefeninstructies

  • Importeer TfidfVectorizer uit sklearn.
  • Maak een TfidfVectorizer-object. Noem het vectorizer.
  • Genereer tfidf_matrix voor ted met de methode fit_transform().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import TfidfVectorizer
from ____ import ____

# Create TfidfVectorizer object
____

# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)

# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)
Code bewerken en uitvoeren