BaşlayınÜcretsiz Başlayın

Metin ön işleme pratiği

Şimdi, daha iyi NLP sonuçları için metni temizlemeye yardımcı olacak teknikleri uygulama sırası sende. Durak sözcükleri ve alfabetik olmayan karakterleri kaldıracak, lemmatization yapacak ve temizlenmiş metnin üzerinde yeni bir bag-of-words oluşturacaksın.

Son egzersizde oluşturduğun aynı token'larla başlıyorsun: lower_tokens. Counter sınıfı da içe aktarılmış durumda.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • nltk.stem içinden WordNetLemmatizer sınıfını içe aktar.
  • Yalnızca alfabetik karakterler içeren alpha_only isimli bir liste oluştur. Bunu kontrol etmek için .isalpha() metodunu kullanabilirsin.
  • alpha_only içindeki sözcüklerden, english_stops içinde olmayanlardan oluşan no_stops adında başka bir liste oluştur.
  • wordnet_lemmatizer adlı bir WordNetLemmatizer nesnesi başlat ve no_stops içindeki token'lara .lemmatize() metodunu uygulayarak lemmatized adlı yeni bir liste oluştur.
  • Lemmatize edilmiş sözcüklerle bow adlı yeni bir Counter oluştur.
  • Son olarak, en yaygın 10 token'ı yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Kodu Düzenle ve Çalıştır