ComenzarEmpieza gratis

Tokenización de palabras con NLTK

Aquí utilizarás la primera escena de El Santo Grial de los Monty Python, que se ha cargado previamente como scene_one. ¡Siéntete libre de comprobarlo en IPython Shell!

Tu trabajo en este ejercicio es utilizar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases de cadenas de Python - en este caso, la primera escena de El Santo Grial de los Monty Python.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones de ejercicio

  • Importa las funciones sent_tokenize y word_tokenize de nltk.tokenize.
  • Tokeniza todas las frases en scene_one utilizando la función sent_tokenize().
  • Tokeniza la cuarta frase en sentences, a la que puedes acceder como sentences[3], utilizando la función word_tokenize().
  • Encuentra las fichas únicas en toda la escena utilizando word_tokenize() en scene_one y convirtiéndolas después en un conjunto utilizando set().
  • Imprime las fichas únicas encontradas. Ya lo hemos hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Editar y ejecutar código