Word2Vec

En este ejercicio crearás un modelo Word2Vec utilizando Keras.

El corpus utilizado para preentrenar el modelo es el guion de todos los episodios de la serie de televisión The Big Bang Theory, dividido frase por frase. Está disponible en la variable bigbang.

El texto del corpus se transformó a minúsculas y todas las palabras se tokenizaron. El resultado se almacena en la variable « tokenized_corpus ».

Se preentrenó un modelo de red de vocabulario con dimensión reducida ( Word2Vec ) utilizando un tamaño de ventana de 10 palabras para el contexto (5 antes y 5 después de la palabra central), se eliminaron las palabras con menos de 3 ocurrencias y se utilizó el método del modelo skip-gram con 50 dimensiones. El modelo se guarda en el archivo bigbang_word2vec.model.

La clase Word2Vec ya está cargada en el entorno desde gensim.models.word2vec.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

Carga el modelo Word2Vec preentrenado.
Almacena un list con las palabras "bazinga", "penny", "universe", "spock", "brain" en la variable words_of_interest, manteniendo el orden.
Repite el proceso con cada palabra de interés utilizando el método « .most_similar() » presente en el atributo « wv » y añade las cinco palabras más similares a « top5_similar_words » como un diccionario.
Imprime las 5 palabras más frecuentes encontradas para cada una de las palabras de interés.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Word2Vec model
w2v_model = Word2Vec.load(____)

# Selected words to check similarities
words_of_interest = ____

# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
    top5_similar_words.append(
      {word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
    )

# Print the similar words
____

Editar y ejecutar código