Regex con tokenización de NLTK
Twitter es una fuente muy usada para texto y tareas de NLP. En este ejercicio, vas a crear un tokenizador más complejo para tuits con hashtags y menciones usando nltk y regex. La clase nltk.tokenize.TweetTokenizer te da métodos y atributos extra para procesar tuits.
Aquí tienes algunos tuits de ejemplo para analizarlos tanto con TweetTokenizer como con regexp_tokenize del módulo nltk.tokenize. Estos tuits de ejemplo se han precargado en la variable tweets. ¡Si quieres, explórala en la consola de IPython!
A diferencia de la sintaxis de la librería re, con nltk_tokenize() pasas el patrón como segundo argumento.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary modules
____
____