Cambiar los pesos de frecuencia

Hasta ahora, simplemente has contado términos en documentos usando DocumentTermMatrix o TermDocumentMatrix. En este ejercicio, verás el ponderado TfIdf en lugar de la frecuencia simple de términos. TfIdf significa term frequency-inverse document frequency (frecuencia de término-inversa de frecuencia de documento) y se usa cuando tienes un corpus grande con poca diversidad de términos.

TfIdf cuenta los términos (es decir, Tf), normaliza el valor por la longitud del documento y luego lo penaliza cuanto más a menudo aparece una palabra entre los documentos. Esto tiene sentido: si una palabra es muy común, es importante, pero no aporta información. Este componente de penalización se recoge en la inverse document frequency (es decir, Idf).

Por ejemplo, al revisar notas de atención al cliente puede aparecer el término "cu" como abreviatura de "customer". Una nota puede decir "the cu has a damaged package" y otra "cu called with question about delivery". Con ponderación por frecuencia de documento, "cu" aparece dos veces, así que se esperaría que fuera informativa. Sin embargo, en TfIdf, "cu" se penaliza porque aparece en todos los documentos. Como resultado, "cu" no se considera novedosa y su valor se reduce hacia 0, lo que permite que otros términos tengan valores más altos para el análisis.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]

Editar y ejecutar código