Gib das Token-Muster an
In dieser Übung arbeitest du mit der Spalte text des tweets-Datensatzes. Deine Aufgabe ist es, die Objektspalte mit dem CountVectorizer zu vektorisieren. Du wirst im Vectorizer unterschiedliche Token-Muster anwenden. Denk daran: Wenn du das Token-Muster angibst, kannst du Zeichen herausfiltern.
Der CountVectorizer wurde bereits für dich importiert.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))