Ein TF-IDF-Wortfrequenz-Array
In dieser Übung erstellst du ein TF-IDF-Wortfrequenz-Array für eine kleine Sammlung von Dokumenten. Dafür nimmst du die Funktion „ TfidfVectorizer ” aus sklearn. Es verwandelt eine Liste von Dokumenten in ein Wortfrequenz-Array, das als csr_matrix ausgegeben wird. Es hat Methoden wie „ fit() “ und „ transform() “, genau wie andere sklearn-Objekte.
Du bekommst eine Liste documents mit Spielzeugdokumenten über Haustiere.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
TfidfVectorizeraussklearn.feature_extraction.text. - Erstell eine Instanz namens „
TfidfVectorizer” mit dem Namen „tfidf”. - Probier mal die Methode „
.fit_transform()” vontfidfaufdocumentsan und schreib das Ergebnis incsr_mat. Das ist eine Wortfrequenzmatrix im csr_matrix-Format. - Schau dir „
csr_mat“ an, indem du die Methode „.toarray()“ aufrufst und das Ergebnis ausgibst. Das haben wir für dich getan. - Die Spalten des Arrays sind Wörter. Hol dir die Liste der Wörter, indem du die Methode „
.get_feature_names_out()“ von „tfidf“ aufrufst, und speicher das Ergebnis in „words“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)