Membersihkan TED Talks dalam sebuah dataframe
Pada latihan ini, kita akan meninjau kembali TED Talks dari bab pertama. Anda diberikan sebuah dataframe ted yang berisi 5 TED Talk. Tugas Anda adalah membersihkan transkrip tersebut menggunakan teknik yang telah dibahas sebelumnya dengan menulis fungsi preprocess dan menerapkannya pada fitur transcript dari dataframe tersebut.
Daftar stopwords tersedia sebagai stopwords.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Hasilkan objek Doc untuk
text. Abaikan argumendisableuntuk sekarang. - Hasilkan lema menggunakan list comprehension dengan atribut
lemma_. - Hapus karakter non-alfabet menggunakan
isalpha()pada kondisi if.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])