Analisi di frequenza delle recensioni dei prodotti

Ora hai accesso a un insieme di dati più grande di recensioni di prodotti TechZone. Come prima, hai pre-elaborato e trasformato le recensioni in una rappresentazione BoW X. Il tuo compito ora è analizzare le frequenze delle parole e identificare i termini più comuni nell’insieme di dati.

Per aiutarti nell’analisi, è fornita una funzione di supporto chiamata get_top_ten(). Prende in input un elenco di parole e i rispettivi conteggi e restituisce le 10 parole più frequenti con i loro conteggi.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Impara gli elementi essenziali dell’elaborazione del testo nel Natural Language Processing (NLP). Padroneggia tecniche come tokenization, rimozione di stop words e punteggiatura e normalizzazione del testo tramite conversione in minuscolo, stemming e lemmatization, per preparare i dati testuali ad analisi successive ed estrazione di insight.

Exercise 1: Introduzione all'elaborazione del linguaggio naturale Exercise 2: Tokenizzazione di frasi e parole Exercise 3: Flusso di lavoro NLP Exercise 4: Gestione delle stop word e della punteggiatura Exercise 5: Rimozione delle stop words Exercise 6: Rimozione della punteggiatura Exercise 7: Tecniche di normalizzazione del testo Exercise 8: Conversione in minuscolo Exercise 9: Stemming Exercise 10: Lemmatizzazione

Trasforma testo grezzo in potenti caratteristiche numeriche. Crea rappresentazioni Bag-of-Words e TF-IDF per catturare l’importanza delle parole nei documenti, quindi esplora word embeddings come Word2Vec e GloVe per scoprire pattern semantici profondi. Visualizza frequenza, rilevanza e similarità per dare vita ai tuoi dati testuali.

Exercise 1: Rappresentazione Bag-of-Words Exercise 2: Costruire il vocabolario dalle recensioni dei clienti Exercise 3: Trasformare il testo in numeri con BoW Exercise 4: Analisi di frequenza delle recensioni dei prodotti

Esercizio attuale

Exercise 5: Visualizzare le frequenze delle parole Exercise 6: Vettorizzazione TF-IDF Exercise 7: Rappresentazione TF-IDF del feedback sui prodotti Exercise 8: Confrontare le rappresentazioni BoW e TF‑IDF Exercise 9: Embeddings Exercise 10: Esplorare le relazioni tra parole con gli embeddings Exercise 11: Visualizzare e confrontare i word embedding

Sfrutta la potenza dei modelli pre-addestrati per svolgere attività avanzate di classificazione del testo. Usa le pipelines di Hugging Face per sentiment analysis, classificazione per argomenti e natural language inference. Valuta similarità semantica e correttezza grammaticale con modelli all’avanguardia, senza dover costruire nulla da zero.

Exercise 1: Pipeline di Hugging Face per l'analisi del sentimento Exercise 2: Analizzare il sentiment di una recensione Exercise 3: Classificare in batch più recensioni Exercise 4: Confrontare modelli su dati di recensioni etichettati Exercise 5: Zero-shot classification e QNLI Exercise 6: Classificazione zero-shot dei ticket di supporto Exercise 7: Il testo risponde alla domanda?Exercise 8: Somiglianza tra domande e correttezza grammaticale Exercise 9: Rilevare domande duplicate Exercise 10: Verificare la correttezza grammaticale

Immergiti nel cuore delle applicazioni NLP moderne con tecniche di token classification e generazione di testo. Impara a estrarre entità significative e strutture grammaticali usando NER e PoS tagging. Padroneggia il question answering sia estrattivo sia astrattivo ed esplora attività avanzate di generazione, tra cui riassunto, traduzione e language modeling tramite le pipelines di Hugging Face.

Exercise 1: Classificazione dei token Exercise 2: Identificare le entità nominate nei titoli di notizie Exercise 3: PoS tagging per l'analisi del testo Exercise 4: Question answering Exercise 5: Rispondere alle domande dalle descrizioni dei prodotti Exercise 6: Generare risposte naturali con QA astrattivo Exercise 7: Attività di generazione di sequenze Exercise 8: Riassumere articoli di news per insight rapidi Exercise 9: Tradurre le recensioni dei clienti in francese Exercise 10: Creare un sistema di completamento della ricerca Exercise 11: Congratulazioni