BaşlayınÜcretsiz Başlayın

Bir veri çerçevesinde TED konuşmalarını temizleme

Bu egzersizde, ilk bölümdeki TED Konuşmalarına geri döneceğiz. Sana 5 TED Konuşmasından oluşan ted adlı bir veri çerçevesi verildi. Görevin, daha önce tartıştığımız teknikleri kullanarak bir preprocess fonksiyonu yazıp veri çerçevesinin transcript özelliğine uygulayarak bu konuşmaları temizlemek.

Durdurma sözcükleri listesi stopwords olarak mevcut.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • text için Doc nesnesi oluştur. Şimdilik disable argümanını yoksay.
  • lemma_ özniteliğini kullanarak liste kavramsallaştırmasıyla (list comprehension) lemmaları üret.
  • if koşulunda isalpha() kullanarak alfabetik olmayan karakterleri çıkar.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])
Kodu Düzenle ve Çalıştır