EmpezarEmpieza gratis

Regex con tokenización de NLTK

Twitter es una fuente muy usada para texto y tareas de NLP. En este ejercicio, vas a crear un tokenizador más complejo para tuits con hashtags y menciones usando nltk y regex. La clase nltk.tokenize.TweetTokenizer te da métodos y atributos extra para procesar tuits.

Aquí tienes algunos tuits de ejemplo para analizarlos tanto con TweetTokenizer como con regexp_tokenize del módulo nltk.tokenize. Estos tuits de ejemplo se han precargado en la variable tweets. ¡Si quieres, explórala en la consola de IPython!

A diferencia de la sintaxis de la librería re, con nltk_tokenize() pasas el patrón como segundo argumento.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the necessary modules
____
____
Editar y ejecutar código