ComenzarEmpieza gratis

Elegir un tokenizador

Dada la siguiente cadena, ¿cuál de los patrones de abajo es el mejor tokenizador? Si es posible, quieres conservar la puntuación de las oraciones como tokens independientes, pero que '#1' se mantenga como un único token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La cadena está disponible en tu espacio de trabajo como my_string, y los patrones se han precargado como pattern1, pattern2, pattern3 y pattern4, respectivamente.

Además, se ha importado regexp_tokenize desde nltk.tokenize. Puedes usar regexp_tokenize(string, pattern) con my_string y uno de los patrones como argumentos para hacer pruebas y ver cuál es el mejor tokenizador.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio