LoslegenKostenlos loslegen

Was ist tf-idf?

Du möchtest das tf-idf-Gewicht für das Wort "computer" berechnen, das fünfmal in einem Dokument mit 100 Wörtern vorkommt. Bei einem Korpus mit 200 Dokumenten, von denen 20 das Wort "computer" erwähnen, kann tf-idf durch Multiplikation der Termfrequenz mit der inversen Dokumentenfrequenz berechnet werden.

Termfrequenz = prozentualer Anteil des Wortes im Vergleich zu allen Token im Dokument Umgekehrte Dokumenthäufigkeit = Logarithmus der Gesamtzahl der Dokumente in einer Korpora geteilt durch die Anzahl der Dokumente, die den Begriff enthalten

Welche der folgenden Optionen ist richtig?

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Interaktive Übung

Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um

Übung starten