LoslegenKostenlos loslegen

Satz- und Wort-Tokenisierung

Die Tokenisierung ist ein wichtiger erster Schritt in der NLP. Dabei wird Text in kleinere Einheiten, sogenannte Tokens, aufgeteilt, was für die Arbeit mit Sprachdaten super wichtig ist. Deine Aufgabe ist es, einen Ausschnitt aus einem Nachrichtenartikel in Sätze und Wörter zu zerlegen.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)
Code bearbeiten und ausführen