Dein erstes BOW
Ein Bag-of-Words ist ein Ansatz, um Text in eine numerische Form zu überführen.
In dieser Übung wendest du ein BOW auf die Liste annak an, bevor du in der nächsten Übung zu einem größeren Datensatz übergehst.
Deine Aufgabe ist es, mit dieser Liste zu arbeiten und mithilfe des CountVectorizer() ein BOW zu erstellen. Diese Transformation ist dein erster Schritt, um die Stimmung eines Textes zu verstehen. Achte auf Wörter, die eine starke Sentiment‑Wirkung haben könnten.
Denk daran: Die Ausgabe eines CountVectorizer() ist eine Sparse-Matrix, die nur Einträge speichert, die ungleich null sind. Um dir den tatsächlichen Inhalt dieser Matrix anzusehen, wandeln wir sie mit der Methode .toarray() in ein dichtes Array um.
Beachte, dass du in diesem Fall das Argument max_features nicht angeben musst, da der Text kurz ist.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere die Count-Vectorizer-Funktion aus
sklearn.feature_extraction.text. - Erstelle den Vektorisierer und fit-te ihn auf dem kleinen Datensatz.
- Erzeuge die BOW-Darstellung mit dem Namen
anna_bow, indem du die Methodetransform()aufrufst. - Gib das BOW-Ergebnis als dichtes Array aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())