LoslegenKostenlos starten

Satz- und Wort-Tokenisierung

Die Tokenisierung ist ein wichtiger erster Schritt im NLP. Dabei wird Text in kleinere Einheiten zerlegt, sogenannte Tokens – das ist entscheidend, um mit Sprachdaten zu arbeiten. Deine Aufgabe ist es, einen Ausschnitt eines Nachrichtenartikels sowohl in Sätze als auch in Wörter zu tokenisieren.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Code bearbeiten und ausführen