Häufigkeitsgewichte ändern
Bisher hast du Begriffe in Dokumenten in der DocumentTermMatrix oder TermDocumentMatrix einfach gezählt. In dieser Übung lernst du TfIdf-Gewichtung statt einfacher Termhäufigkeit kennen. TfIdf steht für „term frequency–inverse document frequency“ und wird verwendet, wenn du einen großen Korpus mit begrenzter Begriffvielfalt hast.
TfIdf zählt Begriffe (also Tf), normalisiert den Wert nach Dokumentlänge und bestraft den Wert umso stärker, je häufiger ein Wort in den Dokumenten vorkommt. Das ist nur logisch: Ist ein Wort allgegenwärtig, ist es zwar wichtig, aber nicht aufschlussreich. Dieser Strafaspekt wird in der inversen Dokumenthäufigkeit (also Idf) abgebildet.
Beim Durchsehen von Notizen des Kundenservice könnte zum Beispiel der Begriff „cu“ als Abkürzung für „customer“ vorkommen. Eine Notiz könnte lauten „the cu has a damaged package“ und eine andere „cu called with question about delivery“. Mit Gewichtung nach „document frequency“ erscheint „cu“ zweimal und wird daher als informativ erwartet. In TfIdf wird „cu“ jedoch bestraft, weil es in allen Dokumenten vorkommt. Dadurch gilt „cu“ nicht als neuartig; sein Wert wird in Richtung 0 reduziert, sodass andere Begriffe höhere Werte für die Analyse erhalten.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]