ComeçarComece de graça

Escolhendo um tokenizador

Dada a string a seguir, qual dos padrões abaixo é o melhor tokenizador? Se possível, você quer manter a pontuação das sentenças como tokens separados, mas fazer com que '#1' permaneça um único token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

A string está disponível no seu workspace como my_string, e os padrões foram pré-carregados como pattern1, pattern2, pattern3 e pattern4, respectivamente.

Além disso, regexp_tokenize foi importada de nltk.tokenize. Você pode usar regexp_tokenize(string, pattern) com my_string e um dos padrões como argumentos para testar por conta própria e ver qual é o melhor tokenizador.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício