Tokenização de palavras com NLTK
Aqui, você vai usar a primeira cena de Monty Python and the Holy Grail, que já foi carregada como scene_one. Fique à vontade para dar uma olhada no IPython Shell!
Sua tarefa neste exercício é utilizar word_tokenize e sent_tokenize de nltk.tokenize para tokenizar tanto palavras quanto frases a partir de strings em Python — neste caso, a primeira cena de Monty Python and the Holy Grail.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Instruções do exercício
- Importe as funções
sent_tokenizeeword_tokenizedenltk.tokenize. - Tokenize todas as frases em
scene_oneusando a funçãosent_tokenize(). - Tokenize a quarta frase em
sentences, à qual você pode acessar comosentences[3], usando a funçãoword_tokenize(). - Encontre os tokens únicos da cena inteira usando
word_tokenize()emscene_onee depois convertendo o resultado em um conjunto comset(). - Imprima os tokens únicos encontrados. Isso já foi feito para você, então clique em 'Enviar Resposta' para ver os resultados!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)