Tokenisation des phrases et des mots
La tokenisation est une première étape importante dans le traitement du langage naturel. Il s'agit de diviser le texte en unités plus petites appelées « tokens », ce qui est essentiel pour travailler avec des données linguistiques. Votre tâche consiste à tokeniser un extrait d'un article d'actualité en phrases et en mots.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)