Aan de slagGa gratis aan de slag

TF-IDF toepassen op boekbeschrijvingen

PyBooks heeft meerdere boekbeschrijvingen verzameld en wil met de TF-IDF-encodetechniek belangrijke woorden daarin identificeren. Zo hopen ze meer inzicht te krijgen in de unieke kenmerken van elk boek om hun aanbevelingssysteem te verbeteren.

De volgende pakketten zijn alvast voor je geïmporteerd: torch, torchtext.

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

Cursus bekijken

Oefeninstructies

  • Importeer de klasse TfidfVectorizer uit sklearn.feature_extraction.text, die een verzameling ruwe documenten omzet naar een matrix met TF-IDF-features.
  • Maak een object van deze klasse aan en gebruik dit object vervolgens om de descriptions te encoderen naar een TF-IDF-matrix van vectoren.
  • Haal de eerste vijf featurenamen op uit de vectorizer en toon die, en laat ook de gecodeerde vectoren uit tfidf_encoded_descriptions zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])
Code bewerken en uitvoeren