Bir veri çerçevesinde TED konuşmalarını temizleme

Bu egzersizde, ilk bölümdeki TED Konuşmalarına geri döneceğiz. Sana 5 TED Konuşmasından oluşan ted adlı bir veri çerçevesi verildi. Görevin, daha önce tartıştığımız teknikleri kullanarak bir preprocess fonksiyonu yazıp veri çerçevesinin transcript özelliğine uygulayarak bu konuşmaları temizlemek.

Durdurma sözcükleri listesi stopwords olarak mevcut.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

text için Doc nesnesi oluştur. Şimdilik disable argümanını yoksay.
lemma_ özniteliğini kullanarak liste kavramsallaştırmasıyla (list comprehension) lemmaları üret.
if koşulunda isalpha() kullanarak alfabetik olmayan karakterleri çıkar.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Kodu Düzenle ve Çalıştır