Tokenização de palavras com NLTK
Aqui, você usará a primeira cena de Monty Python's Holy Grail, que foi pré-carregada como scene_one
. Fique à vontade para dar uma olhada no Shell IPython!
Sua tarefa neste exercício é utilizar word_tokenize
e sent_tokenize
de nltk.tokenize
para tokenizar palavras e frases de cadeias de caracteres Python - neste caso, a primeira cena de O Santo Graal de Monty Python.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importe as funções
sent_tokenize
eword_tokenize
denltk.tokenize
. - Tokenize todas as frases em
scene_one
usando a funçãosent_tokenize()
. - Tokenize a quarta frase em
sentences
, que você pode acessar comosentences[3]
, usando a funçãoword_tokenize()
. - Encontre os tokens exclusivos em toda a cena usando
word_tokenize()
emscene_one
e, em seguida, convertendo-os em um conjunto usandoset()
. - Imprima os tokens exclusivos encontrados. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)