LoslegenKostenlos loslegen

Einen Zähler mit Bag-of-Words bauen

In dieser Übung erstellst du deinen ersten Bag-of-Words-Zähler (in diesem Kurs) anhand eines Wikipedia-Artikels, der als article vorgeladen wurde. Versuche, das Bag-of-Words zu machen, ohne dir den vollständigen Artikeltext anzusehen, und errate, was das Thema ist! Wenn du einen Blick auf den Titel am Ende werfen möchtest, haben wir ihn als article_title eingefügt. Beachte, dass dieser Artikeltext nur sehr wenig von dem rohen Wikipedia-Datenbankeintrag vorverarbeitet wurde.

word_tokenize wurde für dich importiert.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere Counter von collections.
  • Verwende word_tokenize(), um den Artikel in Token aufzuteilen.
  • Verwende ein Listenverständnis mit t als Iteratorvariable, um alle Token in Kleinbuchstaben umzuwandeln. Die Methode .lower() wandelt Text in Kleinbuchstaben um.
  • Erstelle einen Bag-of-Words-Zähler namens bow_simple, indem du Counter() mit lower_tokens als Argument verwendest.
  • Verwende die Methode .most_common() von bow_simple, um die 10 häufigsten Token zu drucken.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Code bearbeiten und ausführen