Tokenización de oraciones con Keras

Aquí podrás practicar con Keras Tokenizer. El Keras Tokenizer es una utilidad fantástica que te ayuda a realizar tareas cruciales de procesamiento de texto con unas pocas líneas de código. Por ejemplo, Keras Tokenizer asignará automáticamente las palabras de tu vocabulario a identificadores con una sola llamada a la función. Aquí encontrarás más información al respecto.

Crearás un objeto Keras Tokenizer y lo ajustarás a un texto, lo que permitirá al Tokenizer crear un diccionario de palabras y sus ID correspondientes. El texto utilizado para entrenar el modelo de texto generativo « Tokenizer » se ha obtenido del repositorio Github de Udacity.

Este ejercicio forma parte del curso

Traducción automática con Keras

Ver curso

Instrucciones del ejercicio

Define un objeto Keras Tokenizer.
Ajusta el tokenizador en en_text.
Obtén el ID de cada palabra w en la lista dada ["january", "apples", "summer"].
Imprime la palabra y su ID correspondiente.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Editar y ejecutar código