Elegir un tokenizador
Dada la siguiente cadena, ¿cuál de los patrones de abajo es el mejor tokenizador? Si es posible, quieres conservar la puntuación de las oraciones como tokens independientes, pero que '#1' se mantenga como un único token.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
La cadena está disponible en tu espacio de trabajo como my_string, y los patrones se han precargado como pattern1, pattern2, pattern3 y pattern4, respectivamente.
Además, se ha importado regexp_tokenize desde nltk.tokenize. Puedes usar regexp_tokenize(string, pattern) con my_string y uno de los patrones como argumentos para hacer pruebas y ver cuál es el mejor tokenizador.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio