Selección de un tokenizador

Dada la siguiente cadena, ¿cuál de los siguientes patrones es el mejor tokenizador? Si es posible, debes mantener la puntuación de las frases como fichas separadas, pero que '#1' siga siendo una sola ficha.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La cadena está disponible en tu espacio de trabajo como my_string, y los patrones se han precargado como pattern1, pattern2, pattern3, y pattern4, respectivamente.

Además, se ha importado regexp_tokenize de nltk.tokenize. Puedes utilizar regexp_tokenize(string, pattern) con my_string y uno de los patrones como argumentos para experimentar por ti mismo y ver cuál es el mejor tokenizador.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio