Cambiar los pesos de frecuencia
Hasta ahora, simplemente has contado términos en documentos usando DocumentTermMatrix o TermDocumentMatrix. En este ejercicio, verás el ponderado TfIdf en lugar de la frecuencia simple de términos. TfIdf significa term frequency-inverse document frequency (frecuencia de término-inversa de frecuencia de documento) y se usa cuando tienes un corpus grande con poca diversidad de términos.
TfIdf cuenta los términos (es decir, Tf), normaliza el valor por la longitud del documento y luego lo penaliza cuanto más a menudo aparece una palabra entre los documentos. Esto tiene sentido: si una palabra es muy común, es importante, pero no aporta información. Este componente de penalización se recoge en la inverse document frequency (es decir, Idf).
Por ejemplo, al revisar notas de atención al cliente puede aparecer el término "cu" como abreviatura de "customer". Una nota puede decir "the cu has a damaged package" y otra "cu called with question about delivery". Con ponderación por frecuencia de documento, "cu" aparece dos veces, así que se esperaría que fuera informativa. Sin embargo, en TfIdf, "cu" se penaliza porque aparece en todos los documentos. Como resultado, "cu" no se considera novedosa y su valor se reduce hacia 0, lo que permite que otros términos tengan valores más altos para el análisis.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]