Einen Zähler mit Bag-of-Words bauen
In dieser Übung erstellst du deinen ersten Bag-of-Words-Zähler (in diesem Kurs) anhand eines Wikipedia-Artikels, der als article vorgeladen wurde. Versuche, das Bag-of-Words zu machen, ohne dir den vollständigen Artikeltext anzusehen, und errate, was das Thema ist! Wenn du einen Blick auf den Titel am Ende werfen möchtest, haben wir ihn als article_title eingefügt. Beachte, dass dieser Artikeltext nur sehr wenig von dem rohen Wikipedia-Datenbankeintrag vorverarbeitet wurde.
word_tokenize wurde für dich importiert.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere
Countervoncollections. - Verwende
word_tokenize(), um den Artikel in Token aufzuteilen. - Verwende ein Listenverständnis mit
tals Iteratorvariable, um alle Token in Kleinbuchstaben umzuwandeln. Die Methode.lower()wandelt Text in Kleinbuchstaben um. - Erstelle einen Bag-of-Words-Zähler namens
bow_simple, indem duCounter()mitlower_tokensals Argument verwendest. - Verwende die Methode
.most_common()vonbow_simple, um die 10 häufigsten Token zu drucken.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)