LoslegenKostenlos loslegen

Ein tf-idf-Wortfrequenz-Array

In dieser Übung erstellst du ein tf-idf-Worthäufigkeitsfeld für eine Spielzeugsammlung von Dokumenten. Verwende dazu die TfidfVectorizer von sklearn. Es wandelt eine Liste von Dokumenten in ein Worthäufigkeits-Array um, das es als csr_matrix ausgibt. Es hat fit() und transform() Methoden wie andere Sklearn-Objekte.

Du bekommst eine Liste documents von Spielzeugdokumenten über Haustiere.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer von sklearn.feature_extraction.text.
  • Erstelle eine TfidfVectorizer Instanz mit dem Namen tfidf.
  • Wende die Methode .fit_transform() von tfidf auf documents an und weise das Ergebnis csr_mat zu. Dies ist ein Array der Worthäufigkeit im csr_matrix-Format.
  • Überprüfe csr_mat, indem du die Methode .toarray() aufrufst und das Ergebnis ausdruckst. Das haben wir für dich getan.
  • Die Spalten des Arrays entsprechen den Wörtern. Erhalte die Liste der Wörter, indem du die Methode .get_feature_names() von tfidf aufrufst, und weise das Ergebnis words zu.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Code bearbeiten und ausführen