LoslegenKostenlos loslegen

Einen Counter mit Bag-of-Words erstellen

In dieser Übung erstellst du deinen ersten (in diesem Kurs) Bag-of-Words-Counter mit einem Wikipedia-Artikel, der als article vorab geladen wurde. Probiere Bag-of-Words aus, ohne dir den gesamten Artikeltext anzusehen, und rate, worum es geht! Wenn du am Ende einen Blick auf den Titel werfen möchtest, haben wir ihn als article_title hinzugefügt. Beachte, dass dieser Artikeltext nur in geringem Umfang vom rohen Wikipedia-Datenbankeintrag vorverarbeitet wurde.

word_tokenize wurde bereits für dich importiert.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere Counter aus collections.
  • Verwende word_tokenize(), um den Artikel in Tokens zu zerlegen.
  • Verwende eine Listenabstraktion mit t als Iterationsvariable, um alle Tokens in Kleinbuchstaben umzuwandeln. Die Methode .lower() wandelt Text in Kleinbuchstaben um.
  • Erstelle einen Bag-of-Words-Counter namens bow_simple, indem du Counter() mit lower_tokens als Argument aufrufst.
  • Verwende die Methode .most_common() von bow_simple, um die zehn häufigsten Tokens auszugeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Code bearbeiten und ausführen