Bir blog yazısını temizleme
Bu egzersizde, bir blog yazısından bir alıntı verildi. Görevin, bu metni makine için daha uygun bir formata temizlemek. Bunun için metni küçük harfe çevirme, kök bulma (lemmatization) ve durak sözcükleri, noktalama işaretlerini ve alfabetik olmayan karakterleri kaldırma adımlarını uygulayacaksın.
Alıntı blog adlı bir string olarak mevcut ve konsola yazdırıldı. Durak sözcüklerin listesi stopwords olarak mevcut.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
- Liste üreteci kullanarak
docüzerinde döngü kur ve her belirtecinlemma_değerini çıkar. stopwordsveisalpha()kullanarak durak sözcükleri ve alfabetik olmayan belirteçleri kaldır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)
# Generate lemmatized tokens
lemmas = [token.____ for token in ____]
# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in ____]
# Print string after text cleaning
print(' '.join(a_lemmas))