Análise de frequência de palavras

Parabéns! Você acaba de entrar na PyBooks. A PyBooks está desenvolvendo um sistema de recomendação de livros e quer encontrar padrões e tendências no texto para melhorar suas recomendações.

Para começar, você vai entender a frequência das palavras em um determinado texto e remover quaisquer palavras raras.

Observe que conjuntos de dados reais costumam ser maiores do que este exemplo.

Este exercício faz parte do curso

Deep Learning para Texto com PyTorch

Ver curso

Instruções do exercício

Importe get_tokenizer do torchtext e FreqDist da biblioteca nltk.
Inicialize o tokenizer para inglês e tokenize o text fornecido.
Calcule a distribuição de frequência dos tokens e remova palavras raras usando list comprehension.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)

Editar e executar o código