Costruire il vocabolario dalle recensioni dei clienti
Fai parte del team di product analytics di TechZone, un’azienda di elettronica di consumo. Hai ricevuto un piccolo set di recensioni dei clienti su un nuovo gadget. Per analizzare le recensioni, inizierai con il preprocessing del testo e la costruzione di un vocabolario, un elenco di parole uniche che definisce le feature usate per rappresentare ogni recensione come dato numerico.
La funzione preprocess() è già caricata per te. Converte il testo in minuscolo, lo tokenizza e rimuove la punteggiatura.
Questo esercizio fa parte del corso
Natural Language Processing (NLP) in Python
Istruzioni dell'esercizio
- Esegui il preprocessing di ciascuna recensione nel dataset usando la funzione
preprocess(). - Esegui il fit di
vectorizersulle recensioni preprocessate. - Stampa il vocabolario risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
reviews = [
"The product is fantastic! It works like a charm.",
"I hated the product. It broke after one use.",
"Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]
vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary
print(vectorizer.____)