Ein tf-idf-Worthäufigkeit-Array
In dieser Übung erstellst du ein tf-idf-Worthäufigkeit-Array für eine kleine Sammlung von Dokumenten. Verwende dafür den TfidfVectorizer aus sklearn. Er transformiert eine Liste von Dokumenten in ein Worthäufigkeit-Array und gibt dieses als csr_matrix aus. Der Vectorizer hat wie andere sklearn-Objekte die Methoden fit() und transform().
Du erhältst eine Liste namens documents mit Dokumenten über Haustiere.
Diese Übung ist Teil des Kurses
Unsupervised Learning in Python
Anleitung zur Übung
- Importiere
TfidfVectorizeraussklearn.feature_extraction.text. - Erstelle eine
TfidfVectorizer-Instanz namenstfidf. - Wende die Methode
.fit_transform()vontfidfaufdocumentsan und weise das Ergebniscsr_matzu. Das ist ein Wortfrequenz-Array im csr_matrix-Format. - Untersuche
csr_mat, indem du seine Methode.toarray()aufrufst und das Ergebnis ausgibst. Das wurde bereits für dich erledigt. - Die Spalten des Arrays entsprechen Wörtern. Rufe die Methode
.get_feature_names_out()vontfidfauf, um die Liste der Wörter zu erhalten, und weise das Ergebniswordszu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)