ComeçarComece de graça

Análise de frequência das avaliações dos produtos

Agora você tem acesso a um conjunto maior de avaliações de produtos da TechZone. Assim como antes, você pré-processou e transformou as avaliações em uma representação BoW X. Agora, a sua tarefa é analisar a frequência das palavras e identificar os termos mais comuns no conjunto de dados.

Para ajudar na análise, tem uma função auxiliar chamada “ get_top_ten() ”. Ele pega uma lista de palavras e quantas vezes elas aparecem, e mostra as 10 palavras mais frequentes e quantas vezes elas apareceram.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Editar e executar o código