Escolha de um tokenizador

Dada a seguinte cadeia de caracteres, qual dos padrões abaixo é o melhor tokenizador? Se possível, você deseja manter a pontuação da frase como tokens separados, mas manter o '#1' como um único token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

A cadeia de caracteres está disponível em seu espaço de trabalho como my_string, e os padrões foram pré-carregados como pattern1, pattern2, pattern3 e pattern4, respectivamente.

Além disso, o site regexp_tokenize foi importado do site nltk.tokenize. Você pode usar regexp_tokenize(string, pattern) com my_string e um dos padrões como argumentos para fazer experiências e ver qual é o melhor tokenizador.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício