Tokenización de palabras con NLTK
Aquí utilizarás la primera escena de El Santo Grial de los Monty Python, que se ha cargado previamente como scene_one. ¡Siéntete libre de comprobarlo en IPython Shell!
Tu trabajo en este ejercicio es utilizar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases de cadenas de Python - en este caso, la primera escena de El Santo Grial de los Monty Python.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones del ejercicio
- Importa las funciones
sent_tokenizeyword_tokenizedenltk.tokenize. - Tokeniza todas las frases en
scene_oneutilizando la funciónsent_tokenize(). - Tokeniza la cuarta frase en
sentences, a la que puedes acceder comosentences[3], utilizando la funciónword_tokenize(). - Encuentra las fichas únicas en toda la escena utilizando
word_tokenize()enscene_oney convirtiéndolas después en un conjunto utilizandoset(). - Imprime las fichas únicas encontradas. Ya lo hemos hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)