Gib das Token-Muster an
In dieser Übung arbeitest du mit der Spalte text des tweets-Datensatzes. Deine Aufgabe ist es, die Objektspalte mit dem CountVectorizer zu vektorisieren. Du wirst im Vectorizer unterschiedliche Token-Muster anwenden. Denk daran: Wenn du das Token-Muster angibst, kannst du Zeichen herausfiltern.
Der CountVectorizer wurde bereits für dich importiert.
Diese Übung ist Teil des Kurses
<Kurs>Stimmungsanalyse in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))