Einen Zähler mit Bag-of-Words bauen
In dieser Übung erstellst du deinen ersten Bag-of-Words-Zähler (in diesem Kurs) anhand eines Wikipedia-Artikels, der als article
vorgeladen wurde. Versuche, das Bag-of-Words zu machen, ohne dir den vollständigen Artikeltext anzusehen, und errate, was das Thema ist! Wenn du einen Blick auf den Titel am Ende werfen möchtest, haben wir ihn als article_title
eingefügt. Beachte, dass dieser Artikeltext nur sehr wenig von dem rohen Wikipedia-Datenbankeintrag vorverarbeitet wurde.
word_tokenize
wurde für dich importiert.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere
Counter
voncollections
. - Verwende
word_tokenize()
, um den Artikel in Token aufzuteilen. - Verwende ein Listenverständnis mit
t
als Iteratorvariable, um alle Token in Kleinbuchstaben umzuwandeln. Die Methode.lower()
wandelt Text in Kleinbuchstaben um. - Erstelle einen Bag-of-Words-Zähler namens
bow_simple
, indem duCounter()
mitlower_tokens
als Argument verwendest. - Verwende die Methode
.most_common()
vonbow_simple
, um die 10 häufigsten Token zu drucken.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)