Kelime sıklığı analizi
Tebrikler! Az önce PyBooks ekibine katıldın. PyBooks bir kitap öneri sistemi geliştiriyor ve önerilerini iyileştirmek için metinlerdeki örüntüleri ve eğilimleri bulmak istiyor.
Başlamak için, verilen bir metindeki kelimelerin sıklığını anlaman ve nadir kelimeleri kaldırman gerekiyor.
Gerçek dünyadaki tipik veri kümelerinin bu örnekten daha büyük olacağını unutma.
Bu egzersiz
PyTorch ile Metin için Deep Learning
kursunun bir parçasıdırEgzersiz talimatları
torchtexttenget_tokenizerı venltkkütüphanesindenFreqDisti içe aktar.- İngilizce için bir belirteçleyici (tokenizer) başlat ve verilen
texti belirteçlere ayır. tokensiçin frekans dağılımını hesapla ve list anlama (list comprehension) kullanarak nadir kelimeleri kaldır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____
text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."
# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)
threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)