Membersihkan sebuah postingan blog

Dalam latihan ini, Anda diberikan sebuah kutipan dari postingan blog. Tugas Anda adalah membersihkan teks ini agar lebih ramah mesin. Ini mencakup mengonversi ke huruf kecil, melakukan lemmatisasi, serta menghapus stopword, tanda baca, dan karakter non-alfabet.

Kutipan tersedia sebagai string blog dan sudah dicetak ke konsol. Daftar stopword tersedia sebagai stopwords.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

Dengan list comprehension, lakukan iterasi melalui doc untuk mengekstrak lemma_ dari setiap token.
Hapus stopword dan token non-alfabet menggunakan stopwords dan isalpha().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Edit dan Jalankan Kode