Tokenização de frases e palavras
A tokenização é um primeiro passo importante na NLP. É quando a gente divide o texto em partes menores, chamadas tokens, o que é essencial pra trabalhar com dados linguísticos. A sua tarefa é dividir um trecho de uma notícia em frases e palavras.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)