MulaiMulai sekarang secara gratis

Membersihkan sebuah postingan blog

Dalam latihan ini, Anda diberikan sebuah kutipan dari postingan blog. Tugas Anda adalah membersihkan teks ini agar lebih ramah mesin. Ini mencakup mengonversi ke huruf kecil, melakukan lemmatisasi, serta menghapus stopword, tanda baca, dan karakter non-alfabet.

Kutipan tersedia sebagai string blog dan sudah dicetak ke konsol. Daftar stopword tersedia sebagai stopwords.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Dengan list comprehension, lakukan iterasi melalui doc untuk mengekstrak lemma_ dari setiap token.
  • Hapus stopword dan token non-alfabet menggunakan stopwords dan isalpha().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))
Edit dan Jalankan Kode