Visualisation et comparaison d'enchevêtrements de mots

Les plongements lexicaux sont de grande dimension, ce qui les rend difficiles à interpréter directement. Dans cet exercice, vous allez projeter quelques vecteurs de mots en 2D à l'aide de l'analyse en composantes principales (ACP) et les visualiser. Cela permet de mettre en évidence des regroupements sémantiques ou des similitudes entre les mots dans l'espace d'intégration. Ensuite, vous comparerez les représentations d'intégration de deux modèles : glove-wiki-gigaword-50 disponible via la variable model_glove_wiki, et glove-twitter-25 disponible via model_glove_twitter.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez les principes fondamentaux du traitement de texte dans le domaine du traitement du langage naturel (NLP). Maîtrisez des techniques telles que la tokenisation, la suppression des mots vides et de la ponctuation, ainsi que la normalisation du texte avec la conversion en minuscules, le lemmatisation et la stemming afin de préparer les données textuelles pour une analyse plus approfondie et l'extraction d'informations.

Exercise 1: Introduction au traitement du langage naturel Exercise 2: Tokenisation des phrases et des mots Exercise 3: Flux de travail NLP Exercise 4: Gestion des mots vides et de la ponctuation Exercise 5: Suppression des mots vides Exercise 6: Suppression de la ponctuation Exercise 7: Techniques de normalisation de texte Exercise 8: Mise en minuscules Exercise 9: Étymologie Exercise 10: Lemmatisation

Transformez du texte brut en fonctionnalités numériques puissantes. Créez des représentations Bag-of-Words et TF-IDF pour saisir l'importance des mots dans les documents, puis explorez les plongements lexicaux tels que Word2Vec et GloVe afin de découvrir des modèles sémantiques profonds. Visualisez la fréquence, la pertinence et la similitude pour donner vie à vos données textuelles.

Exercise 1: Représentation par sac de mots Exercise 2: Enrichir son vocabulaire à partir des avis clients Exercise 3: Convertir du texte en chiffres avec BoW Exercise 4: Analyse de la fréquence des avis sur les produits Exercise 5: Visualisation de la fréquence des mots Exercise 6: Vectorisation TF-IDF Exercise 7: Représentation TF-IDF des commentaires sur les produits Exercise 8: Comparaison des représentations BoW et TF-IDF Exercise 9: Encastrements Exercise 10: Exploration des relations entre les mots à l'aide d'embeddings Exercise 11: Visualisation et comparaison d'enchevêtrements de mots

Exercice en cours

Exploitez la puissance des modèles pré-entraînés pour effectuer des tâches avancées de classification de texte. Veuillez utiliser les pipelines Hugging Face pour l'analyse des sentiments, la classification des sujets et l'inférence en langage naturel. Évaluez la similarité sémantique et la correction grammaticale à l'aide de modèles de pointe, sans avoir à partir de zéro.

Exercise 1: Pipelines Hugging Face pour l'analyse des sentiments Exercise 2: Analyse du sentiment d'un avis Exercise 3: Classification par lots de plusieurs avis Exercise 4: Comparaison de modèles sur des données d'évaluation étiquetées Exercise 5: Classification sans apprentissage et QNLI Exercise 6: Classification sans apprenti de tickets d'assistance Exercise 7: Le texte répond-il à la question ?Exercise 8: Similitude des questions et exactitude grammaticale Exercise 9: Détection des questions en double Exercise 10: Vérification de l'exactitude grammaticale

Explorez le cœur des applications modernes du TALN grâce aux techniques de classification des tokens et de génération de texte. Apprenez à extraire des entités significatives et des structures grammaticales à l'aide du NER et du balisage PoS. Maîtrisez la réponse aux questions extractives et abstraites, et explorez des tâches de génération avancées, notamment la synthèse, la traduction et la modélisation linguistique à l'aide des pipelines Hugging Face.

Exercise 1: Classification des jetons Exercise 2: Identification d'entités nommées dans les titres d'actualités Exercise 3: Étiquetage des parties du discours pour l'analyse de texte Exercise 4: Réponse aux questions Exercise 5: Répondre aux questions issues des descriptions de produits Exercise 6: Génération de réponses naturelles avec le QA abstractif Exercise 7: Tâches de génération de séquences Exercise 8: Résumer des articles d'actualité pour une compréhension rapide Exercise 9: Traduire les avis clients en français Exercise 10: Développement d'un système de complétion de recherche Exercise 11: Félicitations