Tokenizando frases com Keras

Aqui você vai colocar a mão na massa com o Tokenizer do Keras. O Tokenizer do Keras é uma ótima ferramenta que ajuda você a fazer um processamento de texto essencial com poucas linhas de código. Por exemplo, o Tokenizer do Keras mapeia automaticamente as palavras do seu vocabulário para IDs com uma única chamada de função. Aqui, você vai aprender isso em mais detalhes.

Você vai criar um objeto Tokenizer do Keras e ajustá-lo em um texto, o que permitirá que o Tokenizer construa um dicionário de palavras e seus respectivos IDs. O texto usado para treinar o Tokenizer é obtido do repositório da Udacity no Github.

Este exercicio faz parte do curso

Machine Translation with Keras

Ver curso

Instruções do exercicio

Defina um objeto Tokenizer do Keras.
Ajuste o tokenizador em en_text.
Obtenha o ID da palavra para cada palavra w na lista ["january", "apples", "summer"].
Imprima a palavra e seu respectivo ID.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Editar e Executar Código