ComeçarComece de graça

Tokenização de palavras com NLTK

Aqui, você vai usar a primeira cena de Monty Python and the Holy Grail, que já foi carregada como scene_one. Fique à vontade para dar uma olhada no IPython Shell!

Sua tarefa neste exercício é utilizar word_tokenize e sent_tokenize de nltk.tokenize para tokenizar tanto palavras quanto frases a partir de strings em Python — neste caso, a primeira cena de Monty Python and the Holy Grail.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercício

  • Importe as funções sent_tokenize e word_tokenize de nltk.tokenize.
  • Tokenize todas as frases em scene_one usando a função sent_tokenize().
  • Tokenize a quarta frase em sentences, à qual você pode acessar como sentences[3], usando a função word_tokenize().
  • Encontre os tokens únicos da cena inteira usando word_tokenize() em scene_one e depois convertendo o resultado em um conjunto com set().
  • Imprima os tokens únicos encontrados. Isso já foi feito para você, então clique em 'Enviar Resposta' para ver os resultados!

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Editar e executar o código