Bir veri çerçevesinde TED konuşmalarını temizleme
Bu egzersizde, ilk bölümdeki TED Konuşmalarına geri döneceğiz. Sana 5 TED Konuşmasından oluşan ted adlı bir veri çerçevesi verildi. Görevin, daha önce tartıştığımız teknikleri kullanarak bir preprocess fonksiyonu yazıp veri çerçevesinin transcript özelliğine uygulayarak bu konuşmaları temizlemek.
Durdurma sözcükleri listesi stopwords olarak mevcut.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
textiçin Doc nesnesi oluştur. Şimdilikdisableargümanını yoksay.lemma_özniteliğini kullanarak liste kavramsallaştırmasıyla (list comprehension) lemmaları üret.- if koşulunda
isalpha()kullanarak alfabetik olmayan karakterleri çıkar.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])