Tokenizzazione di frasi e parole
La tokenizzazione è un primo passo fondamentale nell’NLP. Consiste nel suddividere il testo in unità più piccole chiamate token, ed è essenziale per lavorare con i dati testuali. Il tuo compito è tokenizzare un estratto di un articolo di news sia in frasi che in parole.
Questo esercizio fa parte del corso
Natural Language Processing (NLP) in Python
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)