IniziaInizia gratis

Rappresentazione TF-IDF del feedback sui prodotti

Stai collaborando con il team di supporto clienti di un'azienda di smart home. Hanno raccolto feedback degli utenti su vari dispositivi smart e vogliono capire quali parole spiccano in ogni recensione. Tu proponi di usare la tecnica TF-IDF per mettere in evidenza i termini più rilevanti nei diversi feedback. Diamo loro una mano a iniziare!

Una funzione preprocess() che riceve un testo e ne restituisce uno elaborato è già caricata per te. Questa funzione applica la conversione in minuscolo, la tokenizzazione e la rimozione della punteggiatura. Pandas è stato importato come pd e la classe TfidfVectorizer è pronta all'uso.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Inizializza un vectorizer TF-IDF.
  • Trasforma le recensioni pulite in una tfidf_matrix.
  • Crea un DataFrame df per la tfidf_matrix, usando le parole del vocabolario come colonne.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Modifica ed esegui il codice