BaşlayınÜcretsiz Başlayın

Bir blog yazısını temizleme

Bu egzersizde, bir blog yazısından bir alıntı verildi. Görevin, bu metni makine için daha uygun bir formata temizlemek. Bunun için metni küçük harfe çevirme, kök bulma (lemmatization) ve durak sözcükleri, noktalama işaretlerini ve alfabetik olmayan karakterleri kaldırma adımlarını uygulayacaksın.

Alıntı blog adlı bir string olarak mevcut ve konsola yazdırıldı. Durak sözcüklerin listesi stopwords olarak mevcut.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Liste üreteci kullanarak doc üzerinde döngü kur ve her belirtecin lemma_ değerini çıkar.
  • stopwords ve isalpha() kullanarak durak sözcükleri ve alfabetik olmayan belirteçleri kaldır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))
Kodu Düzenle ve Çalıştır