Aan de slagBegin gratis

tf-idf-vectoren voor TED-talks

In deze oefening krijg je een corpus ted met de transcripties van 500 TED-talks. Je taak is om de tf-idf-vectoren voor deze talks te genereren.

In een latere les gebruiken we deze vectoren om aanbevelingen te maken voor vergelijkbare talks op basis van de transcriptie.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

  • Importeer TfidfVectorizer uit sklearn.
  • Maak een TfidfVectorizer-object. Noem het vectorizer.
  • Genereer tfidf_matrix voor ted met de methode fit_transform().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import TfidfVectorizer
from ____ import ____

# Create TfidfVectorizer object
____

# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)

# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)
Code bewerken en uitvoeren