ComeçarComece de graça

Análise de frequência em avaliações de produtos

Agora você tem acesso a um conjunto de dados maior com avaliações de produtos da TechZone. Assim como antes, você pré-processou e transformou as avaliações em uma representação BoW X. Sua tarefa agora é analisar as frequências das palavras e identificar os termos mais comuns no conjunto de dados.

Para ajudar na análise, foi fornecida a função auxiliar get_top_ten(). Ela recebe uma lista de palavras e suas contagens correspondentes e retorna as 10 palavras mais frequentes e suas contagens.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Editar e executar o código