CommencerCommencez gratuitement

Tokenisation des phrases et des mots

La tokenisation est une première étape essentielle en NLP. Elle consiste à découper le texte en unités plus petites appelées tokens, ce qui est indispensable pour travailler sur des données textuelles. Votre tâche est de tokeniser un extrait d’article de presse à la fois en phrases et en mots.

Cet exercice fait partie du cours

<cours>Natural Language Processing (NLP) in Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Modifier et exécuter le code