Tokenização de sentenças e palavras
A tokenização é um primeiro passo importante em NLP. Ela consiste em quebrar o texto em unidades menores chamadas tokens, o que é essencial para trabalhar com dados de linguagem. Sua tarefa é tokenizar um trecho de uma notícia em sentenças e palavras.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)