Tokenización de oraciones y palabras
La tokenización es un primer paso esencial en NLP. Consiste en dividir el texto en unidades más pequeñas llamadas tokens, lo cual es clave para trabajar con datos de lenguaje. Tu tarea es tokenizar un fragmento de una noticia tanto en oraciones como en palabras.
Este ejercicio forma parte del curso
Natural Language Processing (NLP) en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)