ComenzarEmpieza gratis

Selección de un tokenizador

Dada la siguiente cadena, ¿cuál de los siguientes patrones es el mejor tokenizador? Si es posible, debes mantener la puntuación de las frases como fichas separadas, pero que '#1' siga siendo una sola ficha.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La cadena está disponible en tu espacio de trabajo como my_string, y los patrones se han precargado como pattern1, pattern2, pattern3, y pattern4, respectivamente.

Además, se ha importado regexp_tokenize de nltk.tokenize. Puedes utilizar regexp_tokenize(string, pattern) con my_string y uno de los patrones como argumentos para experimentar por ti mismo y ver cuál es el mejor tokenizador.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio