Tokenização de palavras com NLTK
Aqui, você usará a primeira cena de Monty Python's Holy Grail, que foi pré-carregada como scene_one. Fique à vontade para dar uma olhada no Shell IPython!
Sua tarefa neste exercício é utilizar word_tokenize e sent_tokenize de nltk.tokenize para tokenizar palavras e frases de cadeias de caracteres Python - neste caso, a primeira cena de O Santo Graal de Monty Python.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
- Importe as funções
sent_tokenizeeword_tokenizedenltk.tokenize. - Tokenize todas as frases em
scene_oneusando a funçãosent_tokenize(). - Tokenize a quarta frase em
sentences, que você pode acessar comosentences[3], usando a funçãoword_tokenize(). - Encontre os tokens exclusivos em toda a cena usando
word_tokenize()emscene_onee, em seguida, convertendo-os em um conjunto usandoset(). - Imprima os tokens exclusivos encontrados. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)