Ein TF-IDF-Wortfrequenz-Array
In dieser Übung erstellst du ein TF-IDF-Wortfrequenz-Array für eine kleine Sammlung von Dokumenten. Dafür nimmst du die Funktion „ TfidfVectorizer
” aus sklearn. Es verwandelt eine Liste von Dokumenten in ein Wortfrequenz-Array, das als csr_matrix ausgegeben wird. Es hat Methoden wie „ fit()
“ und „ transform()
“, genau wie andere sklearn-Objekte.
Du bekommst eine Liste documents
mit Spielzeugdokumenten über Haustiere.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
TfidfVectorizer
aussklearn.feature_extraction.text
. - Erstell eine Instanz namens „
TfidfVectorizer
” mit dem Namen „tfidf
”. - Probier mal die Methode „
.fit_transform()
” vontfidf
aufdocuments
an und schreib das Ergebnis incsr_mat
. Das ist eine Wortfrequenzmatrix im csr_matrix-Format. - Schau dir „
csr_mat
“ an, indem du die Methode „.toarray()
“ aufrufst und das Ergebnis ausgibst. Das haben wir für dich getan. - Die Spalten des Arrays sind Wörter. Hol dir die Liste der Wörter, indem du die Methode „
.get_feature_names_out()
“ von „tfidf
“ aufrufst, und speicher das Ergebnis in „words
“.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)