Bir veri çerçevesinde TED konuşmalarını temizleme
Bu egzersizde, ilk bölümdeki TED Konuşmalarına geri döneceğiz. Sana 5 TED Konuşmasından oluşan ted adlı bir veri çerçevesi verildi. Görevin, daha önce tartıştığımız teknikleri kullanarak bir preprocess fonksiyonu yazıp veri çerçevesinin transcript özelliğine uygulayarak bu konuşmaları temizlemek.
Durdurma sözcükleri listesi stopwords olarak mevcut.
Bu egzersiz, kursun bir parçasıdır
Python ile NLP için Özellik Mühendisliği
Egzersiz talimatları
textiçin Doc nesnesi oluştur. Şimdilikdisableargümanını yoksay.lemma_özniteliğini kullanarak liste kavramsallaştırmasıyla (list comprehension) lemmaları üret.- if koşulunda
isalpha()kullanarak alfabetik olmayan karakterleri çıkar.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])