LoslegenKostenlos loslegen

Ein tf-idf-Worthäufigkeit-Array

In dieser Übung erstellst du ein tf-idf-Worthäufigkeit-Array für eine kleine Sammlung von Dokumenten. Verwende dafür den TfidfVectorizer aus sklearn. Er transformiert eine Liste von Dokumenten in ein Worthäufigkeit-Array und gibt dieses als csr_matrix aus. Der Vectorizer hat wie andere sklearn-Objekte die Methoden fit() und transform().

Du erhältst eine Liste namens documents mit Dokumenten über Haustiere.

Diese Übung ist Teil des Kurses

Unsupervised Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Erstelle eine TfidfVectorizer-Instanz namens tfidf.
  • Wende die Methode .fit_transform() von tfidf auf documents an und weise das Ergebnis csr_mat zu. Das ist ein Wortfrequenz-Array im csr_matrix-Format.
  • Untersuche csr_mat, indem du seine Methode .toarray() aufrufst und das Ergebnis ausgibst. Das wurde bereits für dich erledigt.
  • Die Spalten des Arrays entsprechen Wörtern. Rufe die Methode .get_feature_names_out() von tfidf auf, um die Liste der Wörter zu erhalten, und weise das Ergebnis words zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Code bearbeiten und ausführen