Tokenizzazione di frasi e parole
La tokenizzazione è un primo passo fondamentale nell’NLP. Consiste nel suddividere il testo in unità più piccole chiamate token, ed è essenziale per lavorare con i dati testuali. Il tuo compito è tokenizzare un estratto di un articolo di news sia in frasi che in parole.
Questo esercizio fa parte del corso
Natural Language Processing (NLP) in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)