ComenzarEmpieza gratis

Tokenización de palabras con NLTK

Aquí vas a usar la primera escena de Monty Python's Holy Grail, que ya está precargada como scene_one. ¡Si quieres, échale un vistazo en la IPython Shell!

Tu tarea en este ejercicio es usar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases a partir de cadenas de Python; en este caso, la primera escena de Monty Python's Holy Grail.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

  • Importa las funciones sent_tokenize y word_tokenize desde nltk.tokenize.
  • Tokeniza todas las frases en scene_one usando la función sent_tokenize().
  • Tokeniza la cuarta frase en sentences, a la que puedes acceder como sentences[3], usando la función word_tokenize().
  • Encuentra los tokens únicos de toda la escena usando word_tokenize() sobre scene_one y luego convirtiéndolos en un conjunto con set().
  • Imprime los tokens únicos encontrados. Esto ya está hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Editar y ejecutar código