LoslegenKostenlos loslegen

Was ist tf-idf?

Du möchtest das tf-idf-Gewicht für das Wort "computer" berechnen, das fünfmal in einem Dokument mit 100 Wörtern vorkommt. In einem Korpus mit 200 Dokumenten, in dem 20 Dokumente das Wort "computer" enthalten, lässt sich tf-idf berechnen, indem die Termfrequenz mit der inversen Dokumenthäufigkeit multipliziert wird.

Termfrequenz = prozentualer Anteil des Wortes im Vergleich zu allen Tokens im Dokument Inverse Dokumenthäufigkeit = Logarithmus der Gesamtzahl der Dokumente in einem Korpus, geteilt durch die Anzahl der Dokumente, die den Begriff enthalten

Welche der folgenden Optionen ist korrekt?

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten