Selección de un tokenizador
Dada la siguiente cadena, ¿cuál de los siguientes patrones es el mejor tokenizador? Si es posible, debes mantener la puntuación de las frases como fichas separadas, pero que '#1'
siga siendo una sola ficha.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
La cadena está disponible en tu espacio de trabajo como my_string
, y los patrones se han precargado como pattern1
, pattern2
, pattern3
, y pattern4
, respectivamente.
Además, se ha importado regexp_tokenize
de nltk.tokenize
. Puedes utilizar regexp_tokenize(string, pattern)
con my_string
y uno de los patrones como argumentos para experimentar por ti mismo y ver cuál es el mejor tokenizador.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
