Comparer les représentations BoW et TF-IDF

Vous faites partie de l’équipe analytique d’une entreprise de wearables. Votre objectif est d’aider les chefs de produit à comprendre les retours clients sur la nouvelle montre connectée de l’entreprise. Vous avez déjà prétraité le texte et créé deux représentations : bow_matrix avec CountVectorizer(), et tfidf_matrix avec TfidfVectorizer(). Dans cet exercice, vous allez les visualiser et les comparer pour mieux comprendre comment chacune capture l’importance des mots.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
    ____,
    columns=vectorizer.____
)

# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez l’essentiel du traitement de texte en Natural Language Processing (NLP). Maîtrisez la tokenisation, la suppression des stop words et de la ponctuation, ainsi que la normalisation du texte avec la mise en minuscules, le stemming et la lemmatisation, afin de préparer vos données textuelles pour des analyses plus poussées et l’extraction d’insights.

Exercise 1: Introduction au traitement automatique du langage naturel Exercise 2: Tokenisation des phrases et des mots Exercise 3: Flux de travail en NLP Exercise 4: Gestion des stop words et de la ponctuation Exercise 5: Suppression des mots vides Exercise 6: Supprimer la ponctuation Exercise 7: Techniques de normalisation du texte Exercise 8: Mise en minuscules Exercise 9: Stemming Exercise 10: Lemmatisation

Transformez du texte brut en puissantes caractéristiques numériques. Créez des représentations Bag-of-Words et TF-IDF pour capturer l’importance des mots dans les documents, puis explorez des embeddings comme Word2Vec et GloVe pour révéler des structures sémantiques profondes. Visualisez la fréquence, la pertinence et la similarité pour donner vie à vos données textuelles.

Exercise 1: Représentation Bag-of-Words Exercise 2: Construire le vocabulaire à partir d’avis clients Exercise 3: Transformer du texte en nombres avec BoW Exercise 4: Analyse de fréquence des avis produits Exercise 5: Visualiser les fréquences des mots Exercise 6: Vectorisation TF-IDF Exercise 7: Représentation TF‑IDF des avis produit Exercise 8: Comparer les représentations BoW et TF-IDF

Exercice en cours

Exercise 9: Embeddings Exercise 10: Explorer les relations entre les mots avec des embeddings Exercise 11: Visualiser et comparer des word embeddings

Exploitez la puissance des modèles préentraînés pour réaliser des tâches avancées de classification de texte. Utilisez les pipelines Hugging Face pour l’analyse de sentiment, la classification thématique et l’inférence en langage naturel. Évaluez la similarité sémantique et la correction grammaticale avec des modèles de pointe, sans avoir à tout construire vous-même.

Exercise 1: Pipelines Hugging Face pour l’analyse de sentiments Exercise 2: Analyser le sentiment d’un avis Exercise 3: Classer en lot plusieurs avis Exercise 4: Comparer des modèles sur des avis étiquetés Exercise 5: Classification zero-shot et QNLI Exercise 6: Classification zero-shot des tickets de support Exercise 7: Le texte répond‑il à la question ?Exercise 8: Similarité des questions et acceptabilité grammaticale Exercise 9: Détecter les questions en double Exercise 10: Vérifier la correction grammaticale

Plongez au cœur des applications modernes du NLP avec la classification par tokens et les techniques de génération de texte. Apprenez à extraire des entités et des structures grammaticales pertinentes grâce à la NER et à l’étiquetage PoS. Maîtrisez le question answering extractif et abstractive, et explorez des tâches de génération avancées comme le résumé, la traduction et le language modeling à l’aide des pipelines Hugging Face.

Exercise 1: Classification de tokens Exercise 2: Identifier les entités nommées dans des titres d’actualité Exercise 3: Étiquetage morpho-syntaxique (PoS) pour l’analyse de texte Exercise 4: Question-réponse Exercise 5: Répondre aux questions à partir de descriptions de produits Exercise 6: Générer des réponses naturelles avec le QA abstractive Exercise 7: Tâches de génération de séquences Exercise 8: Résumer des articles d’actualité pour aller à l’essentiel Exercise 9: Traduire des avis clients en français Exercise 10: Créer un système de complétion de recherche Exercise 11: Félicitations