O que é tf-idf?
Você deseja calcular o peso tf-idf para a palavra "computer"
, que aparece cinco vezes em um documento com 100 palavras. Dado um corpus contendo 200 documentos, com 20 documentos mencionando a palavra "computer"
, o tf-idf pode ser calculado multiplicando-se a frequência do termo pela frequência inversa do documento.
Frequência do termo = porcentagem de participação da palavra em comparação com todos os tokens no documento Frequência inversa de documentos = logaritmo do número total de documentos em um corpora dividido pelo número de documentos que contêm o termo
Qual das opções abaixo está correta?
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
