Tokenización de oraciones con Keras
Aquí podrás practicar con Keras Tokenizer
. El Keras Tokenizer
es una utilidad fantástica que te ayuda a realizar tareas cruciales de procesamiento de texto con unas pocas líneas de código. Por ejemplo, Keras Tokenizer
asignará automáticamente las palabras de tu vocabulario a identificadores con una sola llamada a la función. Aquí encontrarás más información al respecto.
Crearás un objeto Keras Tokenizer
y lo ajustarás a un texto, lo que permitirá al Tokenizer
crear un diccionario de palabras y sus ID correspondientes. El texto utilizado para entrenar el modelo de texto generativo « Tokenizer
» se ha obtenido del repositorio Github de Udacity.
Este ejercicio forma parte del curso
Traducción automática con Keras
Instrucciones del ejercicio
- Define un objeto Keras Tokenizer.
- Ajusta el tokenizador en
en_text
. - Obtén el ID de cada palabra
w
en la lista dada["january", "apples", "summer"]
. - Imprime la palabra y su ID correspondiente.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)