Metin ön işleme pratiği
Şimdi, daha iyi NLP sonuçları için metni temizlemeye yardımcı olacak teknikleri uygulama sırası sende. Durak sözcükleri ve alfabetik olmayan karakterleri kaldıracak, lemmatization yapacak ve temizlenmiş metnin üzerinde yeni bir bag-of-words oluşturacaksın.
Son egzersizde oluşturduğun aynı token'larla başlıyorsun: lower_tokens. Counter sınıfı da içe aktarılmış durumda.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
nltk.stemiçindenWordNetLemmatizersınıfını içe aktar.- Yalnızca alfabetik karakterler içeren
alpha_onlyisimli bir liste oluştur. Bunu kontrol etmek için.isalpha()metodunu kullanabilirsin. alpha_onlyiçindeki sözcüklerden,english_stopsiçinde olmayanlardan oluşanno_stopsadında başka bir liste oluştur.wordnet_lemmatizeradlı birWordNetLemmatizernesnesi başlat veno_stopsiçindeki token'lara.lemmatize()metodunu uygulayaraklemmatizedadlı yeni bir liste oluştur.- Lemmatize edilmiş sözcüklerle
bowadlı yeni birCounteroluştur. - Son olarak, en yaygın 10 token'ı yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import WordNetLemmatizer
____
# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]
# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]
# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____
# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]
# Create the bag-of-words: bow
bow = ____(____)
# Print the 10 most common tokens
print(____.____(__))