Word2Vec

Dans cet exercice, vous allez créer un modèle Word2Vec à l'aide de Keras.

Le corpus utilisé pour pré-entraîner le modèle est le script de tous les épisodes de la série télévisée The Big Bang Theory, divisé phrase par phrase. Il est disponible dans l'bigbang.

Le texte du corpus a été converti en minuscules et tous les mots ont été tokenisés. Le résultat est stocké dans la variable tokenized_corpus.

Un modèle d'Word2Vec s a été pré-entraîné en utilisant une fenêtre contextuelle de 10 mots (5 avant et 5 après le mot central), les mots apparaissant moins de 3 fois ont été supprimés et la méthode skip gram a été utilisée avec 50 dimensions. Le modèle est enregistré dans le fichier bigbang_word2vec.model.

La classe Word2Vec est déjà chargée dans l'environnement à partir de gensim.models.word2vec.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

Chargez le modèle Word2Vec pré-entraîné.
list Stockez une chaîne de caractères « "bazinga", "penny", "universe", "spock", "brain" » dans la variable « words_of_interest », en conservant cet ordre.
Parcourez chaque mot d'intérêt en utilisant la méthode « .most_similar() » présente dans l'attribut « wv » et ajoutez les 5 mots les plus similaires à « top5_similar_words » sous forme de dictionnaire.
Imprimez les 5 mots les plus fréquents pour chacun des mots recherchés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Word2Vec model
w2v_model = Word2Vec.load(____)

# Selected words to check similarities
words_of_interest = ____

# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
    top5_similar_words.append(
      {word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
    )

# Print the similar words
____

Modifier et exécuter le code

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous apprendrez les bases des réseaux neuronaux récurrents (RNN). Nous commencerons par quelques prérequis, puis nous poursuivrons par la compréhension du flux d'informations à travers le réseau, avant de voir comment mettre en œuvre de tels modèles avec Keras dans le cadre d'une tâche de classification des sentiments.

Exercise 1: Présentation du cours Exercise 2: Comparaison du nombre de paramètres des réseaux neuronaux récurrents (RNN) et des réseaux neuronaux artificiels (ANN)Exercise 3: Analyse des sentiments Exercise 4: Modèles séquence à séquence Exercise 5: Introduction aux modèles linguistiques Exercise 6: S'habituer aux données textuelles Exercise 7: Préparation des données textuelles pour la saisie dans le modèle Exercise 8: Transformer un nouveau texte Exercise 9: Introduction aux RNN dans Keras Exercise 10: Modèles Keras Exercise 11: Prétraitement Keras Exercise 12: Votre premier modèle RNN

Vous découvrirez les problèmes de gradient disparu et explosif, qui surviennent souvent dans les RNN, et comment les résoudre à l'aide des cellules GRU et LSTM. De plus, vous créerez des couches d'intégration pour les modèles linguistiques et vous vous pencherez à nouveau sur la tâche de classification des sentiments.

Exercise 1: Gradients qui disparaissent et explosent Exercise 2: Problème de gradient explosif Exercise 3: Problème de gradient décroissant Exercise 4: Cellules GRU et LSTM Exercise 5: Les cellules GRU sont plus performantes que les RNN simples.Exercise 6: Empilement de couches RNN Exercise 7: La couche d'intégration Exercise 8: Comparaison du nombre de paramètres Exercise 9: Apprentissage par transfert Exercise 10: Les intégrations améliorent les performances.Exercise 11: Revisiter la classification des sentiments Exercise 12: Meilleure classification des sentiments Exercise 13: Utilisation de la couche CNN

Dans la suite de ce chapitre, vous apprendrez comment préparer les données pour la tâche de classification multi-classes, ainsi que les différences entre la classification multi-classes et la classification binaire (analyse des sentiments). Enfin, vous apprendrez à créer des modèles et à mesurer leurs performances avec Keras.

Exercise 1: Pré-traitement des données Exercise 2: Préparer les vecteurs d'étiquettes Exercise 3: Pré-traiter les données Exercise 4: Apprentissage par transfert pour les modèles linguistiques Exercise 5: Point de départ de l'apprentissage par transfert Exercise 6: Word2Vec

Exercice en cours

Exercise 7: Modèles de classification multicatégorie Exercise 8: Exploration de l'ensemble de données 20 News Groups Exercise 9: Classification des articles d'actualité Exercise 10: Évaluation des performances du modèle Exercise 11: Compromis entre précision et rappel Exercise 12: Précision ou rappel, telle est la question Exercise 13: Performances en classification multi-classes

Ce chapitre présente deux applications des modèles RNN : Génération de texte et traduction automatique neuronale. Vous apprendrez à préparer les données textuelles au format requis par les modèles. Le modèle Text Generation est utilisé pour reproduire la façon de parler d'un personnage et s'amusera à imiter Sheldon de la série The Big Bang Theory. La traduction automatique neuronale est utilisée, par exemple, par Google Translate dans un modèle beaucoup plus complexe. Dans ce chapitre, vous allez créer un modèle qui traduit de petites phrases portugaises en anglais.

Exercise 1: Modèles séquence à séquence Exercise 2: Exemples de génération de texte Exercise 3: Exemple de NMT Exercise 4: La fonction de génération de texte Exercise 5: Prédire le caractère suivant Exercise 6: Générer une phrase avec contexte Exercise 7: Modifier l'échelle de probabilité Exercise 8: Modèles de génération de texte Exercise 9: Créer des vecteurs de phrases et de caractères suivants Exercise 10: Préparation des données pour la formation Exercise 11: Création du modèle de génération de texte Exercise 12: Traduction automatique neuronale Exercise 13: Préparation du texte à saisir Exercise 14: Préparation du texte de sortie Exercise 15: Traduire du portugais vers l'anglais Exercise 16: Félicitations !