Escolhendo um tokenizador
Dada a string a seguir, qual dos padrões abaixo é o melhor tokenizador? Se possível, você quer manter a pontuação das sentenças como tokens separados, mas fazer com que '#1' permaneça um único token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
A string está disponível no seu workspace como my_string, e os padrões foram pré-carregados como pattern1, pattern2, pattern3 e pattern4, respectivamente.
Além disso, regexp_tokenize foi importada de nltk.tokenize. Você pode usar regexp_tokenize(string, pattern) com my_string e um dos padrões como argumentos para testar por conta própria e ver qual é o melhor tokenizador.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício