CommencerCommencer gratuitement

Tokenisation des phrases et des mots

La tokenisation est une première étape importante dans le traitement du langage naturel. Il s'agit de diviser le texte en unités plus petites appelées « tokens », ce qui est essentiel pour travailler avec des données linguistiques. Votre tâche consiste à tokeniser un extrait d'un article d'actualité en phrases et en mots.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Modifier et exécuter le code