Bag-of-words ile Counter oluşturma
Bu egzersizde, önceden article olarak yüklenmiş bir Wikipedia makalesiyle (bu kursta) ilk bag-of-words sayacını oluşturacaksın. Tam makale metnine bakmadan bag-of-words yapmayı dene ve konuyu tahmin etmeye çalış! Sonda başlığa göz atmak istersen, article_title olarak ekledik. Bu makale metninin ham Wikipedia veri tabanı girdisinden çok az ön işleme geçtiğini unutma.
word_tokenize senin için içe aktarıldı.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
collectionsiçindenCounter'ı içe aktar.- Makaleyi token'lara ayırmak için
word_tokenize()kullan. - Tüm token'ları küçük harfe çevirmek için yineleyici değişkeni
tolan bir liste üreteci kullan..lower()metodu metni küçük harfe dönüştürür. lower_tokens'ı argüman olarak vererekCounter()ilebow_simpleadlı bir bag-of-words sayacı oluştur.bow_simple'ın.most_common()metodunu kullanarak en yaygın 10 token'ı yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)