Tokenização de palavras com NLTK

Aqui, você usará a primeira cena de Monty Python's Holy Grail, que foi pré-carregada como scene_one. Fique à vontade para dar uma olhada no Shell IPython!

Sua tarefa neste exercício é utilizar word_tokenize e sent_tokenize de nltk.tokenize para tokenizar palavras e frases de cadeias de caracteres Python - neste caso, a primeira cena de O Santo Graal de Monty Python.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Instruções do exercício

Importe as funções sent_tokenize e word_tokenize de nltk.tokenize.
Tokenize todas as frases em scene_one usando a função sent_tokenize().
Tokenize a quarta frase em sentences, que você pode acessar como sentences[3], usando a função word_tokenize().
Encontre os tokens exclusivos em toda a cena usando word_tokenize() em scene_one e, em seguida, convertendo-os em um conjunto usando set().
Imprima os tokens exclusivos encontrados. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)

Editar e executar o código