Tokenización de palabras con NLTK
Aquí vas a usar la primera escena de Monty Python's Holy Grail, que ya está precargada como scene_one. ¡Si quieres, échale un vistazo en la IPython Shell!
Tu tarea en este ejercicio es usar word_tokenize y sent_tokenize de nltk.tokenize para tokenizar tanto palabras como frases a partir de cadenas de Python; en este caso, la primera escena de Monty Python's Holy Grail.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Importa las funciones
sent_tokenizeyword_tokenizedesdenltk.tokenize. - Tokeniza todas las frases en
scene_oneusando la funciónsent_tokenize(). - Tokeniza la cuarta frase en
sentences, a la que puedes acceder comosentences[3], usando la funciónword_tokenize(). - Encuentra los tokens únicos de toda la escena usando
word_tokenize()sobrescene_oney luego convirtiéndolos en un conjunto conset(). - Imprime los tokens únicos encontrados. Esto ya está hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.
ejercicio interactivo práctico
Prueba este ejercicio completando este código de ejemplo.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)