LoslegenKostenlos starten

Ein tf-idf-Worthäufigkeit-Array

In dieser Übung erstellst du ein tf-idf-Worthäufigkeit-Array für eine kleine Sammlung von Dokumenten. Verwende dafür den TfidfVectorizer aus sklearn. Er transformiert eine Liste von Dokumenten in ein Worthäufigkeit-Array und gibt dieses als csr_matrix aus. Der Vectorizer hat wie andere sklearn-Objekte die Methoden fit() und transform().

Du erhältst eine Liste namens documents mit Dokumenten über Haustiere.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Erstelle eine TfidfVectorizer-Instanz namens tfidf.
  • Wende die Methode .fit_transform() von tfidf auf documents an und weise das Ergebnis csr_mat zu. Das ist ein Wortfrequenz-Array im csr_matrix-Format.
  • Untersuche csr_mat, indem du seine Methode .toarray() aufrufst und das Ergebnis ausgibst. Das wurde bereits für dich erledigt.
  • Die Spalten des Arrays entsprechen Wörtern. Rufe die Methode .get_feature_names_out() von tfidf auf, um die Liste der Wörter zu erhalten, und weise das Ergebnis words zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Code bearbeiten und ausführen