Alterando pesos de frequência
Até agora, você apenas contou termos em documentos no DocumentTermMatrix ou TermDocumentMatrix. Neste exercício, você vai aprender sobre a ponderação TfIdf em vez da frequência simples de termos. TfIdf significa term frequency-inverse document frequency (frequência do termo — inverso da frequência de documentos) e é usada quando você tem um corpus grande com pouca diversidade de termos.
TfIdf contabiliza os termos (ou seja, Tf), normaliza o valor pelo tamanho do documento e depois penaliza o valor quanto mais vezes uma palavra aparece entre os documentos. Isso faz sentido: se uma palavra é comum, ela é importante, mas não necessariamente reveladora. Esse aspecto de penalidade é capturado na frequência inversa de documentos (isto é, Idf).
Por exemplo, ao revisar anotações de atendimento ao cliente, pode aparecer o termo "cu" como abreviação de "customer". Uma anotação pode dizer "the cu has a damaged package" e outra "cu called with question about delivery". Com a ponderação por frequência de documentos, "cu" aparece duas vezes, então seria esperado que fosse informativa. No entanto, em TfIdf, "cu" é penalizada por aparecer em todos os documentos. Como resultado, "cu" não é considerada novidade, então seu valor é reduzido em direção a 0, o que permite que outros termos tenham valores mais altos para análise.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]