Regex con tokenización NLTK
Twitter es una fuente muy utilizada para NLP texto y tareas. En este ejercicio, construirás un tokenizador más complejo para tweets con hashtags y menciones utilizando nltk
y regex. La clase nltk.tokenize.TweetTokenizer
te proporciona algunos métodos y atributos adicionales para analizar tweets.
Aquí te damos algunos tweets de ejemplo para que los analices utilizando TweetTokenizer
y regexp_tokenize
del módulo nltk.tokenize
. Estos tweets de ejemplo se han cargado previamente en la variable tweets
. ¡Siéntete libre de explorarlo en IPython Shell!
A diferencia de la sintaxis de la biblioteca regex, con nltk_tokenize()
pasas el patrón como segundo argumento.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary modules
____
____