Was ist tf-idf?
Du möchtest das tf-idf-Gewicht für das Wort "computer" berechnen, das fünfmal in einem Dokument mit 100 Wörtern vorkommt. In einem Korpus mit 200 Dokumenten, in dem 20 Dokumente das Wort "computer" enthalten, lässt sich tf-idf berechnen, indem die Termfrequenz mit der inversen Dokumenthäufigkeit multipliziert wird.
Termfrequenz = prozentualer Anteil des Wortes im Vergleich zu allen Tokens im Dokument Inverse Dokumenthäufigkeit = Logarithmus der Gesamtzahl der Dokumente in einem Korpus, geteilt durch die Anzahl der Dokumente, die den Begriff enthalten
Welche der folgenden Optionen ist korrekt?
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten