Satz- und Wort-Tokenisierung
Die Tokenisierung ist ein wichtiger erster Schritt im NLP. Dabei wird Text in kleinere Einheiten zerlegt, sogenannte Tokens – das ist entscheidend, um mit Sprachdaten zu arbeiten. Deine Aufgabe ist es, einen Ausschnitt eines Nachrichtenartikels sowohl in Sätze als auch in Wörter zu tokenisieren.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import nltk
____
# Download the punkt_tab package
____
text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""
# Tokenize the text into sentences
sentences = ____
print(sentences)