Změna vah frekvencí

Dosud jsi v DocumentTermMatrix nebo TermDocumentMatrix jednoduše počítal/a výskyty termínů v dokumentech. V tomto cvičení se naučíš používat vážení TfIdf místo prosté frekvence termínů. TfIdf je zkratka pro term frequency-inverse document frequency (frekvence termínu – inverzní frekvence dokumentu) a hodí se tehdy, kdy máš velký korpus s omezenou rozmanitostí termínů.

TfIdf počítá výskyty termínů (tedy Tf), normalizuje hodnotu podle délky dokumentu a navíc penalizuje slova, která se často opakují napříč dokumenty. Je to logické – pokud je nějaké slovo velmi běžné, je sice relevantní, ale nepřináší nové poznatky. Tuto penalizaci zachycuje inverzní frekvence dokumentu (tedy Idf).

Představ si například poznámky zákaznické podpory, kde se zkratka „cu" používá místo slova „customer" (zákazník). V jedné poznámce může stát „the cu has a damaged package" a v jiné „cu called with question about delivery". Při vážení frekvencí dokumentů se „cu" vyskytuje dvakrát, takže se zdá být informativní. V přístupu TfIdf je však „cu" penalizováno, protože se objevuje ve všech dokumentech. Výsledkem je, že „cu" není považováno za nijak výjimečné a jeho hodnota se blíží 0 – díky tomu mohou jiné termíny dosáhnout vyšších hodnot pro analýzu.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]

Upravit a spustit kód