Aan de slagGa gratis aan de slag

Zin- en woordtokenization

Tokenization is een belangrijke eerste stap in NLP. Je splitst tekst op in kleinere eenheden, zogenaamde tokens, wat essentieel is om met taaldata te werken. Je taak is om een stukje nieuwsartikel te tokenizen in zowel zinnen als woorden.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Code bewerken en uitvoeren