ComenzarEmpieza gratis

Tokenización de oraciones y palabras

La tokenización es un primer paso importante en el PLN. Consiste en dividir el texto en unidades más pequeñas llamadas tokens, lo cual es fundamental para trabajar con datos lingüísticos. Tu tarea consiste en tokenizar un fragmento de un artículo de noticias en oraciones y palabras.

Este ejercicio forma parte del curso

Procesamiento del lenguaje natural (NLP) en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Editar y ejecutar código