MulaiMulai sekarang secara gratis

Membersihkan TED Talks dalam sebuah dataframe

Pada latihan ini, kita akan meninjau kembali TED Talks dari bab pertama. Anda diberikan sebuah dataframe ted yang berisi 5 TED Talk. Tugas Anda adalah membersihkan transkrip tersebut menggunakan teknik yang telah dibahas sebelumnya dengan menulis fungsi preprocess dan menerapkannya pada fitur transcript dari dataframe tersebut.

Daftar stopwords tersedia sebagai stopwords.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Hasilkan objek Doc untuk text. Abaikan argumen disable untuk sekarang.
  • Hasilkan lema menggunakan list comprehension dengan atribut lemma_.
  • Hapus karakter non-alfabet menggunakan isalpha() pada kondisi if.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])
Edit dan Jalankan Kode