Wortfrequenzanalyse
Glückwunsch! Du bist gerade bei PyBooks eingestiegen. PyBooks entwickelt ein Buchempfehlungssystem und möchte Muster und Trends in Texten finden, um die Empfehlungen zu verbessern.
Zum Einstieg willst du die Häufigkeit von Wörtern in einem gegebenen Text verstehen und seltene Wörter entfernen.
Beachte, dass typische Datensätze aus der Praxis größer sind als dieses Beispiel.
Diese Übung ist Teil des Kurses
Deep Learning für Text mit PyTorch
Anleitung zur Übung
- Importiere
get_tokenizeraustorchtextundFreqDistaus dernltk-Bibliothek. - Initialisiere den Tokenizer für Englisch und tokenisiere den gegebenen
text. - Berechne die Häufigkeitsverteilung der
tokensund entferne seltene Wörter mit List Comprehension.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____
text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."
# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)
threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)