Een tf-idf-woordfrequentie-array
In deze oefening maak je een tf-idf-woordfrequentie-array voor een kleine verzameling documenten. Gebruik hiervoor de TfidfVectorizer uit sklearn. Deze zet een lijst met documenten om naar een woordfrequentie-array en geeft die terug als een csr_matrix. Net als andere sklearn-objecten heeft hij fit()- en transform()-methoden.
Je krijgt een lijst documents met eenvoudige documenten over huisdieren.
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer
TfidfVectorizeruitsklearn.feature_extraction.text. - Maak een instantie van
TfidfVectorizermet de naamtfidf. - Pas de methode
.fit_transform()vantfidftoe opdocumentsen wijs het resultaat toe aancsr_mat. Dit is een woordfrequentie-array in csr_matrix-formaat. - Inspecteer
csr_matdoor de methode.toarray()aan te roepen en het resultaat te printen. Dit is alvast voor je gedaan. - De kolommen van de array komen overeen met woorden. Haal de lijst met woorden op door de methode
.get_feature_names_out()vantfidfaan te roepen en wijs het resultaat toe aanwords.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)