TF-IDF toepassen op boekbeschrijvingen
PyBooks heeft meerdere boekbeschrijvingen verzameld en wil met de TF-IDF-encodetechniek belangrijke woorden daarin identificeren. Zo hopen ze meer inzicht te krijgen in de unieke kenmerken van elk boek om hun aanbevelingssysteem te verbeteren.
De volgende pakketten zijn alvast voor je geïmporteerd: torch, torchtext.
Deze oefening maakt deel uit van de cursus
Deep Learning voor tekst met PyTorch
Oefeninstructies
- Importeer de klasse
TfidfVectorizeruitsklearn.feature_extraction.text, die een verzameling ruwe documenten omzet naar een matrix met TF-IDF-features. - Maak een object van deze klasse aan en gebruik dit object vervolgens om de
descriptionste encoderen naar een TF-IDF-matrix van vectoren. - Haal de eerste vijf featurenamen op uit de
vectorizeren toon die, en laat ook de gecodeerde vectoren uittfidf_encoded_descriptionszien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)
# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])