Tokenizando frases com Keras
Aqui você vai colocar a mão na massa com o Keras Tokenizer
. O Keras Tokenizer
é um utilitário incrível que te ajuda a fazer um processamento de texto essencial com só algumas linhas de código. Por exemplo, o Keras Tokenizer
vai automaticamente mapear as palavras do seu vocabulário para IDs com uma única chamada de função. Aqui, você vai saber mais sobre isso.
Você vai criar um objeto Keras Tokenizer
e ajustá-lo a algum texto, o que vai permitir que o Tokenizer
crie um dicionário de palavras e seus IDs correspondentes. O texto usado para treinar o modelo de texto generativo “ Tokenizer
” vem do repositório Github da Udacity.
Este exercício faz parte do curso
Tradução automática com Keras
Instruções do exercício
- Defina um objeto Keras Tokenizer.
- Ajuste o tokenizador em
en_text
. - Pega o ID de cada palavra
w
na lista que te deram["january", "apples", "summer"]
. - Imprima a palavra e o ID que ela tem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)