Análise de frequência das avaliações dos produtos
Agora você tem acesso a um conjunto maior de avaliações de produtos da TechZone. Assim como antes, você pré-processou e transformou as avaliações em uma representação BoW X
. Agora, a sua tarefa é analisar a frequência das palavras e identificar os termos mais comuns no conjunto de dados.
Para ajudar na análise, tem uma função auxiliar chamada “ get_top_ten()
”. Ele pega uma lista de palavras e quantas vezes elas aparecem, e mostra as 10 palavras mais frequentes e quantas vezes elas apareceram.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)