LoslegenKostenlos loslegen

Wortfrequenzanalyse

Glückwunsch! Du bist gerade bei PyBooks eingestiegen. PyBooks entwickelt ein Buchempfehlungssystem und möchte Muster und Trends in Texten finden, um die Empfehlungen zu verbessern.

Zum Einstieg willst du die Häufigkeit von Wörtern in einem gegebenen Text verstehen und seltene Wörter entfernen.

Beachte, dass typische Datensätze aus der Praxis größer sind als dieses Beispiel.

Diese Übung ist Teil des Kurses

Deep Learning für Text mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Importiere get_tokenizer aus torchtext und FreqDist aus der nltk-Bibliothek.
  • Initialisiere den Tokenizer für Englisch und tokenisiere den gegebenen text.
  • Berechne die Häufigkeitsverteilung der tokens und entferne seltene Wörter mit List Comprehension.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)
Code bearbeiten und ausführen