Escolha de um tokenizador
Dada a seguinte cadeia de caracteres, qual dos padrões abaixo é o melhor tokenizador? Se possível, você deseja manter a pontuação da frase como tokens separados, mas manter o '#1'
como um único token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
A cadeia de caracteres está disponível em seu espaço de trabalho como my_string
, e os padrões foram pré-carregados como pattern1
, pattern2
, pattern3
e pattern4
, respectivamente.
Além disso, o site regexp_tokenize
foi importado do site nltk.tokenize
. Você pode usar regexp_tokenize(string, pattern)
com my_string
e um dos padrões como argumentos para fazer experiências e ver qual é o melhor tokenizador.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
