ComenzarEmpieza gratis

Regex con tokenización NLTK

Twitter es una fuente muy utilizada para NLP texto y tareas. En este ejercicio, construirás un tokenizador más complejo para tweets con hashtags y menciones utilizando nltk y regex. La clase nltk.tokenize.TweetTokenizer te proporciona algunos métodos y atributos adicionales para analizar tweets.

Aquí te damos algunos tweets de ejemplo para que los analices utilizando TweetTokenizer y regexp_tokenize del módulo nltk.tokenize. Estos tweets de ejemplo se han cargado previamente en la variable tweets. ¡Siéntete libre de explorarlo en IPython Shell!

A diferencia de la sintaxis de la biblioteca regex, con nltk_tokenize() pasas el patrón como segundo argumento.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the necessary modules
____
____
Editar y ejecutar código