Costruire il vocabolario dalle recensioni dei clienti

Fai parte del team di product analytics di TechZone, un’azienda di elettronica di consumo. Hai ricevuto un piccolo set di recensioni dei clienti su un nuovo gadget. Per analizzare le recensioni, inizierai con il preprocessing del testo e la costruzione di un vocabolario, un elenco di parole uniche che definisce le feature usate per rappresentare ogni recensione come dato numerico.

La funzione preprocess() è già caricata per te. Converte il testo in minuscolo, lo tokenizza e rimuove la punteggiatura.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza corso

Istruzioni dell'esercizio

Esegui il preprocessing di ciascuna recensione nel dataset usando la funzione preprocess().
Esegui il fit di vectorizer sulle recensioni preprocessate.
Stampa il vocabolario risultante.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Impara gli elementi essenziali dell’elaborazione del testo nel Natural Language Processing (NLP). Padroneggia tecniche come tokenization, rimozione di stop words e punteggiatura e normalizzazione del testo tramite conversione in minuscolo, stemming e lemmatization, per preparare i dati testuali ad analisi successive ed estrazione di insight.

Exercise 1: Introduzione all'elaborazione del linguaggio naturale Exercise 2: Tokenizzazione di frasi e parole Exercise 3: Flusso di lavoro NLP Exercise 4: Gestione delle stop word e della punteggiatura Exercise 5: Rimozione delle stop words Exercise 6: Rimozione della punteggiatura Exercise 7: Tecniche di normalizzazione del testo Exercise 8: Conversione in minuscolo Exercise 9: Stemming Exercise 10: Lemmatizzazione

Trasforma testo grezzo in potenti caratteristiche numeriche. Crea rappresentazioni Bag-of-Words e TF-IDF per catturare l’importanza delle parole nei documenti, quindi esplora word embeddings come Word2Vec e GloVe per scoprire pattern semantici profondi. Visualizza frequenza, rilevanza e similarità per dare vita ai tuoi dati testuali.

Exercise 1: Rappresentazione Bag-of-Words Exercise 2: Costruire il vocabolario dalle recensioni dei clienti

Esercizio attuale

Exercise 3: Trasformare il testo in numeri con BoW Exercise 4: Analisi di frequenza delle recensioni dei prodotti Exercise 5: Visualizzare le frequenze delle parole Exercise 6: Vettorizzazione TF-IDF Exercise 7: Rappresentazione TF-IDF del feedback sui prodotti Exercise 8: Confrontare le rappresentazioni BoW e TF‑IDF Exercise 9: Embeddings Exercise 10: Esplorare le relazioni tra parole con gli embeddings Exercise 11: Visualizzare e confrontare i word embedding

Sfrutta la potenza dei modelli pre-addestrati per svolgere attività avanzate di classificazione del testo. Usa le pipelines di Hugging Face per sentiment analysis, classificazione per argomenti e natural language inference. Valuta similarità semantica e correttezza grammaticale con modelli all’avanguardia, senza dover costruire nulla da zero.

Exercise 1: Pipeline di Hugging Face per l'analisi del sentimento Exercise 2: Analizzare il sentiment di una recensione Exercise 3: Classificare in batch più recensioni Exercise 4: Confrontare modelli su dati di recensioni etichettati Exercise 5: Zero-shot classification e QNLI Exercise 6: Classificazione zero-shot dei ticket di supporto Exercise 7: Il testo risponde alla domanda?Exercise 8: Somiglianza tra domande e correttezza grammaticale Exercise 9: Rilevare domande duplicate Exercise 10: Verificare la correttezza grammaticale

Immergiti nel cuore delle applicazioni NLP moderne con tecniche di token classification e generazione di testo. Impara a estrarre entità significative e strutture grammaticali usando NER e PoS tagging. Padroneggia il question answering sia estrattivo sia astrattivo ed esplora attività avanzate di generazione, tra cui riassunto, traduzione e language modeling tramite le pipelines di Hugging Face.

Exercise 1: Classificazione dei token Exercise 2: Identificare le entità nominate nei titoli di notizie Exercise 3: PoS tagging per l'analisi del testo Exercise 4: Question answering Exercise 5: Rispondere alle domande dalle descrizioni dei prodotti Exercise 6: Generare risposte naturali con QA astrattivo Exercise 7: Attività di generazione di sequenze Exercise 8: Riassumere articoli di news per insight rapidi Exercise 9: Tradurre le recensioni dei clienti in francese Exercise 10: Creare un sistema di completamento della ricerca Exercise 11: Congratulazioni