Escolhendo um tokenizador
Dada a string a seguir, qual dos padrões abaixo é o melhor tokenizador? Se possível, você quer manter a pontuação das sentenças como tokens separados, mas fazer com que '#1' permaneça um único token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
A string está disponível no seu workspace como my_string, e os padrões foram pré-carregados como pattern1, pattern2, pattern3 e pattern4, respectivamente.
Além disso, regexp_tokenize foi importada de nltk.tokenize. Você pode usar regexp_tokenize(string, pattern) com my_string e um dos padrões como argumentos para testar por conta própria e ver qual é o melhor tokenizador.
Este exercicio faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio