Dein erstes BOW

Ein Bag-of-Words ist ein Ansatz, um Text in eine numerische Form zu überführen.

In dieser Übung wendest du ein BOW auf die Liste annak an, bevor du in der nächsten Übung zu einem größeren Datensatz übergehst.

Deine Aufgabe ist es, mit dieser Liste zu arbeiten und mithilfe des CountVectorizer() ein BOW zu erstellen. Diese Transformation ist dein erster Schritt, um die Stimmung eines Textes zu verstehen. Achte auf Wörter, die eine starke Sentiment‑Wirkung haben könnten.

Denk daran: Die Ausgabe eines CountVectorizer() ist eine Sparse-Matrix, die nur Einträge speichert, die ungleich null sind. Um dir den tatsächlichen Inhalt dieser Matrix anzusehen, wandeln wir sie mit der Methode .toarray() in ein dichtes Array um.

Beachte, dass du in diesem Fall das Argument max_features nicht angeben musst, da der Text kurz ist.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Count-Vectorizer-Funktion aus sklearn.feature_extraction.text.
Erstelle den Vektorisierer und fit-te ihn auf dem kleinen Datensatz.
Erzeuge die BOW-Darstellung mit dem Namen anna_bow, indem du die Methode transform() aufrufst.
Gib das BOW-Ergebnis als dichtes Array aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())

Code bearbeiten und ausführen