Was ist tf-idf?
Du möchtest das tf-idf-Gewicht für das Wort "computer"
berechnen, das fünfmal in einem Dokument mit 100 Wörtern vorkommt. Bei einem Korpus mit 200 Dokumenten, von denen 20 das Wort "computer"
erwähnen, kann tf-idf durch Multiplikation der Termfrequenz mit der inversen Dokumentenfrequenz berechnet werden.
Termfrequenz = prozentualer Anteil des Wortes im Vergleich zu allen Token im Dokument Umgekehrte Dokumenthäufigkeit = Logarithmus der Gesamtzahl der Dokumente in einer Korpora geteilt durch die Anzahl der Dokumente, die den Begriff enthalten
Welche der folgenden Optionen ist richtig?
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Interaktive Übung zum Anfassen
Setzen Sie die Theorie mit einer unserer interaktiven Übungen in die Tat um
