Tokenización de palabras con NLTK
Aquí utilizarás la primera escena de El Santo Grial de los Monty Python, que se ha cargado previamente como scene_one
. ¡Siéntete libre de comprobarlo en IPython Shell!
Tu trabajo en este ejercicio es utilizar word_tokenize
y sent_tokenize
de nltk.tokenize
para tokenizar tanto palabras como frases de cadenas de Python - en este caso, la primera escena de El Santo Grial de los Monty Python.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones de ejercicio
- Importa las funciones
sent_tokenize
yword_tokenize
denltk.tokenize
. - Tokeniza todas las frases en
scene_one
utilizando la funciónsent_tokenize()
. - Tokeniza la cuarta frase en
sentences
, a la que puedes acceder comosentences[3]
, utilizando la funciónword_tokenize()
. - Encuentra las fichas únicas en toda la escena utilizando
word_tokenize()
enscene_one
y convirtiéndolas después en un conjunto utilizandoset()
. - Imprime las fichas únicas encontradas. Ya lo hemos hecho por ti, así que pulsa "Enviar respuesta" para ver los resultados.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)