CommencerCommencer gratuitement

Construire le vocabulaire à partir d’avis clients

Vous faites partie de l’équipe d’analytique produit chez TechZone, une entreprise d’électronique grand public. Vous avez reçu un petit lot d’avis clients pour un nouveau gadget. Pour analyser ces avis, vous allez d’abord prétraiter le texte et construire un vocabulaire, c’est-à-dire une liste de mots uniques qui définit les caractéristiques utilisées pour représenter chaque avis sous forme de données numériques.

Une fonction preprocess() est préchargée pour vous. Elle met le texte en minuscules, le tokenise et supprime la ponctuation.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Instructions

  • Prétraitez chaque avis du jeu de données avec la fonction preprocess().
  • Ajustez le vectorizer sur les avis prétraités.
  • Affichez le vocabulaire obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Modifier et exécuter le code