CommencerCommencer gratuitement

Tokenisation des phrases et des mots

La tokenisation est une première étape essentielle en NLP. Elle consiste à découper le texte en unités plus petites appelées tokens, ce qui est indispensable pour travailler sur des données textuelles. Votre tâche est de tokeniser un extrait d’article de presse à la fois en phrases et en mots.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Modifier et exécuter le code