CommencerCommencer gratuitement

Représentation TF‑IDF des avis produit

Vous collaborez avec une équipe de support client dans une entreprise de maison connectée. Elle a collecté des retours d’utilisateurs sur différents appareils et souhaite identifier les mots qui ressortent dans chaque avis. Vous proposez d’utiliser la technique TF‑IDF pour mettre en évidence les termes les plus pertinents dans l’ensemble des retours. Aidons-les à démarrer !

Une fonction preprocess() qui reçoit un texte et renvoie une version traitée est préchargée. Elle applique la mise en minuscules, la tokenisation et la suppression de la ponctuation. Pandas a été importé sous le nom pd, et la classe TfidfVectorizer est prête à l’emploi.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Instructions

  • Initialisez un vectorizer TF‑IDF.
  • Transformez les avis nettoyés en tfidf_matrix.
  • Créez un DataFrame df à partir de tfidf_matrix, avec les mots du vocabulaire en colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Modifier et exécuter le code