Tokenización de palabras con NLTK
Aquí vas a usar la primera escena de Monty Python's Holy Grail, que ya está precargada como scene_one. ¡Si quieres, échale un vistazo en la IPython Shell!
Tu tarea en este ejercicio es usar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases a partir de cadenas de Python; en este caso, la primera escena de Monty Python's Holy Grail.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Importa las funciones
sent_tokenizeyword_tokenizedesdenltk.tokenize. - Tokeniza todas las frases en
scene_oneusando la funciónsent_tokenize(). - Tokeniza la cuarta frase en
sentences, a la que puedes acceder comosentences[3], usando la funciónword_tokenize(). - Encuentra los tokens únicos de toda la escena usando
word_tokenize()sobrescene_oney luego convirtiéndolos en un conjunto conset(). - Imprime los tokens únicos encontrados. Esto ya está hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)