Ein tf-idf-Wortfrequenz-Array
In dieser Übung erstellst du ein tf-idf-Worthäufigkeitsfeld für eine Spielzeugsammlung von Dokumenten. Verwende dazu die TfidfVectorizer
von sklearn. Es wandelt eine Liste von Dokumenten in ein Worthäufigkeits-Array um, das es als csr_matrix ausgibt. Es hat fit()
und transform()
Methoden wie andere Sklearn-Objekte.
Du bekommst eine Liste documents
von Spielzeugdokumenten über Haustiere.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
TfidfVectorizer
vonsklearn.feature_extraction.text
. - Erstelle eine
TfidfVectorizer
Instanz mit dem Namentfidf
. - Wende die Methode
.fit_transform()
vontfidf
aufdocuments
an und weise das Ergebniscsr_mat
zu. Dies ist ein Array der Worthäufigkeit im csr_matrix-Format. - Überprüfe
csr_mat
, indem du die Methode.toarray()
aufrufst und das Ergebnis ausdruckst. Das haben wir für dich getan. - Die Spalten des Arrays entsprechen den Wörtern. Erhalte die Liste der Wörter, indem du die Methode
.get_feature_names()
vontfidf
aufrufst, und weise das Ergebniswords
zu.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)