Mulai sekarangMulai gratis

Lematisasi dengan spaCy

Dalam latihan ini, Anda akan berlatih lematisasi. Lematisasi berguna untuk menghasilkan bentuk akar dari kata turunan. Artinya, untuk kalimat apa pun, jumlah lemma diharapkan kurang dari atau sama dengan jumlah token.

Ulasan makanan Amazon pertama disediakan untuk Anda dalam sebuah string bernama text. en_core_web_sm telah dimuat sebagai nlp, dan telah dijalankan pada text untuk menyusun document, sebuah kontainer Doc untuk string teks tersebut.

tokens, sebuah daftar yang berisi token untuk text, juga sudah disiapkan untuk Anda gunakan.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Instruksi latihan

  • Tambahkan lemma untuk semua token dalam document, lalu cetak daftar lemmas.
  • Cetak daftar tokens dan amati perbedaan antara tokens dan lemmas.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)
Edit dan Jalankan Kode