Lematisasi dengan spaCy
Dalam latihan ini, Anda akan berlatih lematisasi. Lematisasi berguna untuk menghasilkan bentuk akar dari kata turunan. Artinya, untuk kalimat apa pun, jumlah lemma diharapkan kurang dari atau sama dengan jumlah token.
Ulasan makanan Amazon pertama disediakan untuk Anda dalam sebuah string bernama text. en_core_web_sm telah dimuat sebagai nlp, dan telah dijalankan pada text untuk menyusun document, sebuah kontainer Doc untuk string teks tersebut.
tokens, sebuah daftar yang berisi token untuk text, juga sudah disiapkan untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Tambahkan lemma untuk semua token dalam
document, lalu cetak daftarlemmas. - Cetak daftar
tokensdan amati perbedaan antaratokensdanlemmas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
document = nlp(text)
tokens = [token.text for token in document]
# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")
# Print tokens and compare with lemmas list
print("Tokens:\n", ____)