Regex con tokenización NLTK
Twitter es una fuente muy utilizada para NLP texto y tareas. En este ejercicio, construirás un tokenizador más complejo para tweets con hashtags y menciones utilizando nltk
y regex. La clase nltk.tokenize.TweetTokenizer
te proporciona algunos métodos y atributos adicionales para analizar tweets.
Aquí te damos algunos tweets de ejemplo para que los analices utilizando TweetTokenizer
y regexp_tokenize
del módulo nltk.tokenize
. Estos tweets de ejemplo se han cargado previamente en la variable tweets
. ¡Siéntete libre de explorarlo en IPython Shell!
A diferencia de la sintaxis de la biblioteca regex, con nltk_tokenize()
pasas el patrón como segundo argumento.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import the necessary modules
____
____