LoslegenKostenlos loslegen

Ein TF-IDF-Wortfrequenz-Array

In dieser Übung erstellst du ein TF-IDF-Wortfrequenz-Array für eine kleine Sammlung von Dokumenten. Dafür nimmst du die Funktion „ TfidfVectorizer ” aus sklearn. Es verwandelt eine Liste von Dokumenten in ein Wortfrequenz-Array, das als csr_matrix ausgegeben wird. Es hat Methoden wie „ fit() “ und „ transform() “, genau wie andere sklearn-Objekte.

Du bekommst eine Liste documents mit Spielzeugdokumenten über Haustiere.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Erstell eine Instanz namens „ TfidfVectorizer ” mit dem Namen „ tfidf ”.
  • Probier mal die Methode „ .fit_transform() ” von tfidf auf documents an und schreib das Ergebnis in csr_mat. Das ist eine Wortfrequenzmatrix im csr_matrix-Format.
  • Schau dir „ csr_mat “ an, indem du die Methode „ .toarray() “ aufrufst und das Ergebnis ausgibst. Das haben wir für dich getan.
  • Die Spalten des Arrays sind Wörter. Hol dir die Liste der Wörter, indem du die Methode „ .get_feature_names_out() “ von „ tfidf “ aufrufst, und speicher das Ergebnis in „ words “.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Code bearbeiten und ausführen