Bir blog yazısını temizleme

Bu egzersizde, bir blog yazısından bir alıntı verildi. Görevin, bu metni makine için daha uygun bir formata temizlemek. Bunun için metni küçük harfe çevirme, kök bulma (lemmatization) ve durak sözcükleri, noktalama işaretlerini ve alfabetik olmayan karakterleri kaldırma adımlarını uygulayacaksın.

Alıntı blog adlı bir string olarak mevcut ve konsola yazdırıldı. Durak sözcüklerin listesi stopwords olarak mevcut.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

Liste üreteci kullanarak doc üzerinde döngü kur ve her belirtecin lemma_ değerini çıkar.
stopwords ve isalpha() kullanarak durak sözcükleri ve alfabetik olmayan belirteçleri kaldır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Kodu Düzenle ve Çalıştır