ComenzarEmpieza gratis

Regex con tokenización de NLTK

Twitter es una fuente muy usada para texto y tareas de NLP. En este ejercicio, vas a crear un tokenizador más complejo para tuits con hashtags y menciones usando nltk y regex. La clase nltk.tokenize.TweetTokenizer te da métodos y atributos extra para procesar tuits.

Aquí tienes algunos tuits de ejemplo para analizarlos tanto con TweetTokenizer como con regexp_tokenize del módulo nltk.tokenize. Estos tuits de ejemplo se han precargado en la variable tweets. ¡Si quieres, explórala en la consola de IPython!

A diferencia de la sintaxis de la librería re, con nltk_tokenize() pasas el patrón como segundo argumento.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the necessary modules
____
____
Editar y ejecutar código