ComenzarEmpieza gratis

Tokenización de oraciones con Keras

Aquí podrás practicar con Keras Tokenizer. El Keras Tokenizer es una utilidad fantástica que te ayuda a realizar tareas cruciales de procesamiento de texto con unas pocas líneas de código. Por ejemplo, Keras Tokenizer asignará automáticamente las palabras de tu vocabulario a identificadores con una sola llamada a la función. Aquí encontrarás más información al respecto.

Crearás un objeto Keras Tokenizer y lo ajustarás a un texto, lo que permitirá al Tokenizer crear un diccionario de palabras y sus ID correspondientes. El texto utilizado para entrenar el modelo de texto generativo « Tokenizer » se ha obtenido del repositorio Github de Udacity.

Este ejercicio forma parte del curso

Traducción automática con Keras

Ver curso

Instrucciones del ejercicio

  • Define un objeto Keras Tokenizer.
  • Ajusta el tokenizador en en_text.
  • Obtén el ID de cada palabra w en la lista dada ["january", "apples", "summer"].
  • Imprime la palabra y su ID correspondiente.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)
Editar y ejecutar código