BaşlayınÜcretsiz Başlayın

Bag-of-words ile Counter oluşturma

Bu egzersizde, önceden article olarak yüklenmiş bir Wikipedia makalesiyle (bu kursta) ilk bag-of-words sayacını oluşturacaksın. Tam makale metnine bakmadan bag-of-words yapmayı dene ve konuyu tahmin etmeye çalış! Sonda başlığa göz atmak istersen, article_title olarak ekledik. Bu makale metninin ham Wikipedia veri tabanı girdisinden çok az ön işleme geçtiğini unutma.

word_tokenize senin için içe aktarıldı.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • collections içinden Counter'ı içe aktar.
  • Makaleyi token'lara ayırmak için word_tokenize() kullan.
  • Tüm token'ları küçük harfe çevirmek için yineleyici değişkeni t olan bir liste üreteci kullan. .lower() metodu metni küçük harfe dönüştürür.
  • lower_tokens'ı argüman olarak vererek Counter() ile bow_simple adlı bir bag-of-words sayacı oluştur.
  • bow_simple'ın .most_common() metodunu kullanarak en yaygın 10 token'ı yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Kodu Düzenle ve Çalıştır