Tokenisation des phrases et des mots
La tokenisation est une première étape essentielle en NLP. Elle consiste à découper le texte en unités plus petites appelées tokens, ce qui est indispensable pour travailler sur des données textuelles. Votre tâche est de tokeniser un extrait d’article de presse à la fois en phrases et en mots.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)