Regex con tokenización NLTK
Twitter es una fuente muy utilizada para NLP texto y tareas. En este ejercicio, construirás un tokenizador más complejo para tweets con hashtags y menciones utilizando nltk y regex. La clase nltk.tokenize.TweetTokenizer te proporciona algunos métodos y atributos adicionales para analizar tweets.
Aquí te damos algunos tweets de ejemplo para que los analices utilizando TweetTokenizer y regexp_tokenize del módulo nltk.tokenize. Estos tweets de ejemplo se han cargado previamente en la variable tweets. ¡Siéntete libre de explorarlo en IPython Shell!
A diferencia de la sintaxis de la biblioteca regex, con nltk_tokenize() pasas el patrón como segundo argumento.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary modules
____
____