Membersihkan TED Talks dalam sebuah dataframe
Pada latihan ini, kita akan meninjau kembali TED Talks dari bab pertama. Anda diberikan sebuah dataframe ted yang berisi 5 TED Talk. Tugas Anda adalah membersihkan transkrip tersebut menggunakan teknik yang telah dibahas sebelumnya dengan menulis fungsi preprocess dan menerapkannya pada fitur transcript dari dataframe tersebut.
Daftar stopwords tersedia sebagai stopwords.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Hasilkan objek Doc untuk
text. Abaikan argumendisableuntuk sekarang. - Hasilkan lema menggunakan list comprehension dengan atribut
lemma_. - Hapus karakter non-alfabet menggunakan
isalpha()pada kondisi if.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])