Word2Vec
Dans cet exercice, vous allez créer un modèle Word2Vec avec Keras.
Le corpus utilisé pour le pré-entraînement du modèle est le script de tous les épisodes de la série The Big Bang Theory, découpé phrase par phrase. Il est disponible dans la variable bigbang.
Le texte du corpus a été mis en minuscules et tous les mots ont été tokenisés. Le résultat est stocké dans la variable tokenized_corpus.
Un modèle Word2Vec a été pré-entraîné en utilisant une fenêtre de contexte de 10 mots (5 avant et 5 après le mot central), les mots avec moins de 3 occurrences ont été supprimés et la méthode skip-gram a été utilisée avec une dimension de 50. Le modèle est enregistré dans le fichier bigbang_word2vec.model.
La classe Word2Vec est déjà chargée dans l’environnement depuis gensim.models.word2vec.
Cet exercice fait partie du cours
Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Chargez le modèle Word2Vec pré-entraîné.
- Stockez une
listcontenant les mots"bazinga", "penny", "universe", "spock", "brain"dans la variablewords_of_interest, en conservant cet ordre. - Itérez sur chaque mot d’intérêt en utilisant la méthode
.most_similar()disponible sur l’attributwv, puis ajoutez les 5 mots les plus similaires àtop5_similar_wordssous forme de dictionnaire. - Affichez les 5 mots trouvés pour chacun des mots d’intérêt.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Word2Vec model
w2v_model = Word2Vec.load(____)
# Selected words to check similarities
words_of_interest = ____
# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
top5_similar_words.append(
{word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
)
# Print the similar words
____