Modificare i pesi di frequenza
Finora hai semplicemente contato i termini nei documenti in DocumentTermMatrix o TermDocumentMatrix. In questo esercizio, scoprirai il peso TfIdf invece della semplice frequenza dei termini. TfIdf significa term frequency-inverse document frequency ed è utile quando hai un corpus ampio ma con bassa diversità di termini.
TfIdf conta i termini (cioè Tf), normalizza il valore per la lunghezza del documento e poi penalizza il valore quanto più spesso una parola compare tra i documenti. È buon senso: se una parola è comune, è importante, ma non particolarmente informativa. Questo aspetto di penalizzazione è catturato dall’inverse document frequency (cioè Idf).
Per esempio, rivedendo note del servizio clienti potresti trovare il termine "cu" come abbreviazione di "customer". Una nota potrebbe dire "the cu has a damaged package" e un’altra "cu called with question about delivery". Con il peso della document frequency, "cu" compare due volte, quindi ci si aspetta che sia informativo. Tuttavia, con TfIdf, "cu" viene penalizzato perché appare in tutti i documenti. Di conseguenza, "cu" non è considerato nuovo, quindi il suo valore viene ridotto verso 0, lasciando ad altri termini valori più alti per l’analisi.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]