Tokenizando frases com Keras
Aqui você vai colocar a mão na massa com o Tokenizer do Keras. O Tokenizer do Keras é uma ótima ferramenta que ajuda você a fazer um processamento de texto essencial com poucas linhas de código. Por exemplo, o Tokenizer do Keras mapeia automaticamente as palavras do seu vocabulário para IDs com uma única chamada de função. Aqui, você vai aprender isso em mais detalhes.
Você vai criar um objeto Tokenizer do Keras e ajustá-lo em um texto, o que permitirá que o Tokenizer construa um dicionário de palavras e seus respectivos IDs. O texto usado para treinar o Tokenizer é obtido do repositório da Udacity no Github.
Este exercício faz parte do curso
Machine Translation with Keras
Instruções do exercício
- Defina um objeto Tokenizer do Keras.
- Ajuste o tokenizador em
en_text. - Obtenha o ID da palavra para cada palavra
wna lista["january", "apples", "summer"]. - Imprima a palavra e seu respectivo ID.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)