ComeçarComece de graça

Tokenização de palavras com NLTK

Aqui, você usará a primeira cena de Monty Python's Holy Grail, que foi pré-carregada como scene_one. Fique à vontade para dar uma olhada no Shell IPython!

Sua tarefa neste exercício é utilizar word_tokenize e sent_tokenize de nltk.tokenize para tokenizar palavras e frases de cadeias de caracteres Python - neste caso, a primeira cena de O Santo Graal de Monty Python.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Instruções do exercício

  • Importe as funções sent_tokenize e word_tokenize de nltk.tokenize.
  • Tokenize todas as frases em scene_one usando a função sent_tokenize().
  • Tokenize a quarta frase em sentences, que você pode acessar como sentences[3], usando a função word_tokenize().
  • Encontre os tokens exclusivos em toda a cena usando word_tokenize() em scene_one e, em seguida, convertendo-os em um conjunto usando set().
  • Imprima os tokens exclusivos encontrados. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Editar e executar o código