BaşlayınÜcretsiz Başlayın

Kelime sıklığı analizi

Tebrikler! Az önce PyBooks ekibine katıldın. PyBooks bir kitap öneri sistemi geliştiriyor ve önerilerini iyileştirmek için metinlerdeki örüntüleri ve eğilimleri bulmak istiyor.

Başlamak için, verilen bir metindeki kelimelerin sıklığını anlaman ve nadir kelimeleri kaldırman gerekiyor.

Gerçek dünyadaki tipik veri kümelerinin bu örnekten daha büyük olacağını unutma.

Bu egzersiz

PyTorch ile Metin için Deep Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • torchtextten get_tokenizerı ve nltk kütüphanesinden FreqDisti içe aktar.
  • İngilizce için bir belirteçleyici (tokenizer) başlat ve verilen texti belirteçlere ayır.
  • tokens için frekans dağılımını hesapla ve list anlama (list comprehension) kullanarak nadir kelimeleri kaldır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)
Kodu Düzenle ve Çalıştır