Représentation TF‑IDF des avis produit
Vous collaborez avec une équipe de support client dans une entreprise de maison connectée. Elle a collecté des retours d’utilisateurs sur différents appareils et souhaite identifier les mots qui ressortent dans chaque avis. Vous proposez d’utiliser la technique TF‑IDF pour mettre en évidence les termes les plus pertinents dans l’ensemble des retours. Aidons-les à démarrer !
Une fonction preprocess() qui reçoit un texte et renvoie une version traitée est préchargée. Elle applique la mise en minuscules, la tokenisation et la suppression de la ponctuation. Pandas a été importé sous le nom pd, et la classe TfidfVectorizer est prête à l’emploi.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Instructions
- Initialisez un
vectorizerTF‑IDF. - Transformez les avis nettoyés en
tfidf_matrix. - Créez un DataFrame
dfà partir detfidf_matrix, avec les mots du vocabulaire en colonnes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())