IniziaInizia gratis

Analisi di frequenza delle recensioni dei prodotti

Ora hai accesso a un insieme di dati più grande di recensioni di prodotti TechZone. Come prima, hai pre-elaborato e trasformato le recensioni in una rappresentazione BoW X. Il tuo compito ora è analizzare le frequenze delle parole e identificare i termini più comuni nell’insieme di dati.

Per aiutarti nell’analisi, è fornita una funzione di supporto chiamata get_top_ten(). Prende in input un elenco di parole e i rispettivi conteggi e restituisce le 10 parole più frequenti con i loro conteggi.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Modifica ed esegui il codice