Word2Vec

Neste exercício, você vai criar um modelo Word2Vec usando o Keras.

O corpus usado para pré-treinar o modelo é o roteiro de todos os episódios da série de TV The Big Bang Theory, dividido frase por frase. Está disponível na variável bigbang.

O texto do corpus foi transformado em minúsculas e todas as palavras foram tokenizadas. O resultado fica guardado na variável “ tokenized_corpus ”.

Um modelo de rede neural de sequência de palavras ( Word2Vec ) foi pré-treinado usando um tamanho de janela de 10 palavras para contexto (5 antes e 5 depois da palavra central), palavras com menos de 3 ocorrências foram removidas e o método do modelo skip gram foi usado com 50 dimensões. O modelo é salvo no arquivo “ bigbang_word2vec.model ”.

A classe Word2Vec já está carregada no ambiente a partir de gensim.models.word2vec.

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

Instruções do exercício

Carregue o modelo Word2Vec pré-treinado.
Guarde um list com as palavras "bazinga", "penny", "universe", "spock", "brain" na variável words_of_interest, mantendo-as nessa ordem.
Repita cada palavra de interesse usando o método “ .most_similar() ” presente no atributo “ wv ” e acrescente as 5 palavras mais parecidas a “ top5_similar_words ” como um dicionário.
Imprima as 5 palavras mais encontradas para cada uma das palavras de interesse.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Word2Vec model
w2v_model = Word2Vec.load(____)

# Selected words to check similarities
words_of_interest = ____

# Compute top 5 similar words for each of the words of interest
top5_similar_words = []
for word in words_of_interest:
    top5_similar_words.append(
      {word: [item[0] for item in w2v_model.wv.____([word], topn=5)]}
    )

# Print the similar words
____

Editar e executar o código

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

AvançadoNível de habilidade

4.8+

Iniciar curso de graça

Neste capítulo, você vai aprender o básico sobre Redes Neurais Recorrentes (RNN). Começando com alguns pré-requisitos, continuando com a compreensão de como as informações fluem pela rede e, finalmente, vendo como implementar esses modelos com o Keras na tarefa de classificação de sentimentos.

Exercise 1: Introdução ao curso Exercise 2: Comparando o número de parâmetros de RNN e ANN Exercise 3: Análise de sentimento Exercise 4: Modelos sequência a sequência Exercise 5: Introdução aos modelos de linguagem Exercise 6: Se acostumando com dados de texto Exercise 7: Preparando dados de texto para entrada no modelo Exercise 8: Transformando um texto novo Exercise 9: Introdução à RNN dentro do Keras Exercise 10: Modelos Keras Exercise 11: Pré-processamento Keras Exercise 12: Seu primeiro modelo RNN

Você vai aprender sobre os problemas de gradiente desaparecendo e explodindo, que aparecem bastante em RNNs, e como lidar com eles usando as células GRU e LSTM. Além disso, você vai criar camadas de incorporação para modelos de linguagem e revisitar a tarefa de classificação de sentimentos.

Exercise 1: Desaparecimento e explosão de gradientes Exercise 2: Problema de gradiente explosivo Exercise 3: Problema do gradiente desaparecido Exercise 4: Células GRU e LSTM Exercise 5: As células GRU são melhores do que as simples RNN.Exercise 6: Empilhando camadas RNN Exercise 7: A camada de incorporação Exercise 8: Comparando o número de parâmetros Exercise 9: Aprendizado por transferência Exercise 10: As incorporações melhoram o desempenho Exercise 11: Revisitando a classificação de sentimentos Exercise 12: Melhor classificação do sentimento Exercise 13: Usando a camada CNN

Depois, neste capítulo, você vai aprender como preparar os dados para a tarefa de classificação multiclasse, além das diferenças entre classificação multiclasse e classificação binária (análise de sentimentos). Por fim, você vai aprender a criar modelos e medir o desempenho deles com o Keras.

Exercise 1: Pré-processamento de dados Exercise 2: Prepare os vetores de etiqueta Exercise 3: Processar os dados antes Exercise 4: Aprendizado por transferência para modelos de linguagem Exercise 5: Ponto de partida da aprendizagem por transferência Exercise 6: Word2Vec

Exercício atual

Exercise 7: Modelos de classificação multiclasse Exercise 8: Explorando o conjunto de dados 20 News Groups Exercise 9: Classificando artigos de notícias Exercise 10: Avaliando o desempenho do modelo Exercise 11: Compromisso entre precisão e recall Exercise 12: Precisão ou recuperação, essa é a questão Exercise 13: Desempenho em classificação multiclasse

Este capítulo apresenta duas aplicações dos modelos RNN: Geração de texto e tradução automática neural. Você vai aprender a preparar os dados de texto no formato que os modelos precisam. O modelo Text Generation é usado pra reproduzir a maneira de falar de um personagem e vai ser divertido imitar o Sheldon, da série The Big Bang Theory. A tradução automática neural é usada, por exemplo, pelo Google Tradutor, num modelo bem mais complexo. Neste capítulo, você vai criar um modelo que traduz pequenas frases do português para o inglês.

Exercise 1: Modelos de sequência para sequência Exercise 2: Exemplos de geração de texto Exercise 3: Exemplo de NMT Exercise 4: A função de geração de texto Exercise 5: Adivinhar o próximo caractere Exercise 6: Crie frases com contexto Exercise 7: Alterar a escala de probabilidade Exercise 8: Modelos de geração de texto Exercise 9: Crie vetores de frases e próximos caracteres Exercise 10: Preparando os dados para o treinamento Exercise 11: Criando o modelo de geração de texto Exercise 12: Tradução automática por redes neurais Exercise 13: Preparando o texto de entrada Exercise 14: Preparando o texto final Exercise 15: Traduzir do português para o inglês Exercise 16: Parabéns!