Gib das Token-Muster an

In dieser Übung arbeitest du mit der Spalte text des tweets-Datensatzes. Deine Aufgabe ist es, die Objektspalte mit dem CountVectorizer zu vektorisieren. Du wirst im Vectorizer unterschiedliche Token-Muster anwenden. Denk daran: Wenn du das Token-Muster angibst, kannst du Zeichen herausfiltern.

Der CountVectorizer wurde bereits für dich importiert.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))

Code bearbeiten und ausführen