Membersihkan sebuah postingan blog
Dalam latihan ini, Anda diberikan sebuah kutipan dari postingan blog. Tugas Anda adalah membersihkan teks ini agar lebih ramah mesin. Ini mencakup mengonversi ke huruf kecil, melakukan lemmatisasi, serta menghapus stopword, tanda baca, dan karakter non-alfabet.
Kutipan tersedia sebagai string blog dan sudah dicetak ke konsol. Daftar stopword tersedia sebagai stopwords.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Dengan list comprehension, lakukan iterasi melalui
docuntuk mengekstraklemma_dari setiap token. - Hapus stopword dan token non-alfabet menggunakan
stopwordsdanisalpha().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)
# Generate lemmatized tokens
lemmas = [token.____ for token in ____]
# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in ____]
# Print string after text cleaning
print(' '.join(a_lemmas))