Alterando pesos de frequência

Até agora, você apenas contou termos em documentos no DocumentTermMatrix ou TermDocumentMatrix. Neste exercício, você vai aprender sobre a ponderação TfIdf em vez da frequência simples de termos. TfIdf significa term frequency-inverse document frequency (frequência do termo — inverso da frequência de documentos) e é usada quando você tem um corpus grande com pouca diversidade de termos.

TfIdf contabiliza os termos (ou seja, Tf), normaliza o valor pelo tamanho do documento e depois penaliza o valor quanto mais vezes uma palavra aparece entre os documentos. Isso faz sentido: se uma palavra é comum, ela é importante, mas não necessariamente reveladora. Esse aspecto de penalidade é capturado na frequência inversa de documentos (isto é, Idf).

Por exemplo, ao revisar anotações de atendimento ao cliente, pode aparecer o termo "cu" como abreviação de "customer". Uma anotação pode dizer "the cu has a damaged package" e outra "cu called with question about delivery". Com a ponderação por frequência de documentos, "cu" aparece duas vezes, então seria esperado que fosse informativa. No entanto, em TfIdf, "cu" é penalizada por aparecer em todos os documentos. Como resultado, "cu" não é considerada novidade, então seu valor é reduzido em direção a 0, o que permite que outros termos tenham valores mais altos para análise.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]

Editar e executar o código