EmpezarEmpieza gratis

Tokenización de palabras con NLTK

Aquí vas a usar la primera escena de Monty Python's Holy Grail, que ya está precargada como scene_one. ¡Si quieres, échale un vistazo en la IPython Shell!

Tu tarea en este ejercicio es usar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases a partir de cadenas de Python; en este caso, la primera escena de Monty Python's Holy Grail.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

  • Importa las funciones sent_tokenize y word_tokenize desde nltk.tokenize.
  • Tokeniza todas las frases en scene_one usando la función sent_tokenize().
  • Tokeniza la cuarta frase en sentences, a la que puedes acceder como sentences[3], usando la función word_tokenize().
  • Encuentra los tokens únicos de toda la escena usando word_tokenize() sobre scene_one y luego convirtiéndolos en un conjunto con set().
  • Imprime los tokens únicos encontrados. Esto ya está hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Editar y ejecutar código