Was ist tf-idf?
Du möchtest das tf-idf-Gewicht für das Wort "computer" berechnen, das fünfmal in einem Dokument mit 100 Wörtern vorkommt. In einem Korpus mit 200 Dokumenten, in dem 20 Dokumente das Wort "computer" enthalten, lässt sich tf-idf berechnen, indem die Termfrequenz mit der inversen Dokumenthäufigkeit multipliziert wird.
Termfrequenz = prozentualer Anteil des Wortes im Vergleich zu allen Tokens im Dokument Inverse Dokumenthäufigkeit = Logarithmus der Gesamtzahl der Dokumente in einem Korpus, geteilt durch die Anzahl der Dokumente, die den Begriff enthalten
Welche der folgenden Optionen ist korrekt?
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit Python</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten