CommencerCommencer gratuitement

Représentation TF-IDF des commentaires sur les produits

Vous travaillez au sein d'une équipe d'assistance à la clientèle dans une entreprise spécialisée dans les maisons intelligentes. Ils ont recueilli les commentaires des utilisateurs sur une gamme d'appareils intelligents et souhaitent identifier les mots qui ressortent dans chaque avis. Vous suggérez d'utiliser la technique TF-IDF pour mettre en évidence les termes les plus pertinents dans les commentaires. Aidons-les à se lancer !

Une fonction d'preprocess() qui reçoit un texte et renvoie un texte traité est préchargée pour vous. Cette fonction applique la conversion en minuscules, la tokenisation et la suppression de la ponctuation. Pandas a été importé sous le nom d'pd,, et la classe TfidfVectorizer est prête à être utilisée.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Instructions

  • vectorizerInitialisez une base de données TF-IDF.
  • Transformez les avis nettoyés en une liste de produits ( tfidf_matrix).
  • Créez un DataFrame df pour l'tfidf_matrix, avec les mots du vocabulaire comme colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Modifier et exécuter le code