Membersihkan TED Talks dalam sebuah dataframe

Pada latihan ini, kita akan meninjau kembali TED Talks dari bab pertama. Anda diberikan sebuah dataframe ted yang berisi 5 TED Talk. Tugas Anda adalah membersihkan transkrip tersebut menggunakan teknik yang telah dibahas sebelumnya dengan menulis fungsi preprocess dan menerapkannya pada fitur transcript dari dataframe tersebut.

Daftar stopwords tersedia sebagai stopwords.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

Hasilkan objek Doc untuk text. Abaikan argumen disable untuk sekarang.
Hasilkan lema menggunakan list comprehension dengan atribut lemma_.
Hapus karakter non-alfabet menggunakan isalpha() pada kondisi if.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Edit dan Jalankan Kode