Rappresentazione TF-IDF del feedback sui prodotti
Stai collaborando con il team di supporto clienti di un'azienda di smart home. Hanno raccolto feedback degli utenti su vari dispositivi smart e vogliono capire quali parole spiccano in ogni recensione. Tu proponi di usare la tecnica TF-IDF per mettere in evidenza i termini più rilevanti nei diversi feedback. Diamo loro una mano a iniziare!
Una funzione preprocess() che riceve un testo e ne restituisce uno elaborato è già caricata per te. Questa funzione applica la conversione in minuscolo, la tokenizzazione e la rimozione della punteggiatura. Pandas è stato importato come pd e la classe TfidfVectorizer è pronta all'uso.
Questo esercizio fa parte del corso
Natural Language Processing (NLP) in Python
Istruzioni dell'esercizio
- Inizializza un
vectorizerTF-IDF. - Trasforma le recensioni pulite in una
tfidf_matrix. - Crea un DataFrame
dfper latfidf_matrix, usando le parole del vocabolario come colonne.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())