Einen Counter mit Bag-of-Words erstellen
In dieser Übung erstellst du deinen ersten (in diesem Kurs) Bag-of-Words-Counter mit einem Wikipedia-Artikel, der als article vorab geladen wurde. Probiere Bag-of-Words aus, ohne dir den gesamten Artikeltext anzusehen, und rate, worum es geht! Wenn du am Ende einen Blick auf den Titel werfen möchtest, haben wir ihn als article_title hinzugefügt. Beachte, dass dieser Artikeltext nur in geringem Umfang vom rohen Wikipedia-Datenbankeintrag vorverarbeitet wurde.
word_tokenize wurde bereits für dich importiert.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Anleitung zur Übung
- Importiere
Counterauscollections. - Verwende
word_tokenize(), um den Artikel in Tokens zu zerlegen. - Verwende eine Listenabstraktion mit
tals Iterationsvariable, um alle Tokens in Kleinbuchstaben umzuwandeln. Die Methode.lower()wandelt Text in Kleinbuchstaben um. - Erstelle einen Bag-of-Words-Counter namens
bow_simple, indem duCounter()mitlower_tokensals Argument aufrufst. - Verwende die Methode
.most_common()vonbow_simple, um die zehn häufigsten Tokens auszugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)