Tokenización de palabras con NLTK
Aquí utilizarás la primera escena de El Santo Grial de los Monty Python, que se ha cargado previamente como scene_one
. ¡Siéntete libre de comprobarlo en IPython Shell!
Tu trabajo en este ejercicio es utilizar word_tokenize
y sent_tokenize
de nltk.tokenize
para tokenizar tanto palabras como frases de cadenas de Python - en este caso, la primera escena de El Santo Grial de los Monty Python.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones del ejercicio
- Importa las funciones
sent_tokenize
yword_tokenize
denltk.tokenize
. - Tokeniza todas las frases en
scene_one
utilizando la funciónsent_tokenize()
. - Tokeniza la cuarta frase en
sentences
, a la que puedes acceder comosentences[3]
, utilizando la funciónword_tokenize()
. - Encuentra las fichas únicas en toda la escena utilizando
word_tokenize()
enscene_one
y convirtiéndolas después en un conjunto utilizandoset()
. - Imprime las fichas únicas encontradas. Ya lo hemos hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)