Lematisasi dengan spaCy

Dalam latihan ini, Anda akan berlatih lematisasi. Lematisasi berguna untuk menghasilkan bentuk akar dari kata turunan. Artinya, untuk kalimat apa pun, jumlah lemma diharapkan kurang dari atau sama dengan jumlah token.

Ulasan makanan Amazon pertama disediakan untuk Anda dalam sebuah string bernama text. en_core_web_sm telah dimuat sebagai nlp, dan telah dijalankan pada text untuk menyusun document, sebuah kontainer Doc untuk string teks tersebut.

tokens, sebuah daftar yang berisi token untuk text, juga sudah disiapkan untuk Anda gunakan.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Instruksi latihan

Tambahkan lemma untuk semua token dalam document, lalu cetak daftar lemmas.
Cetak daftar tokens dan amati perbedaan antara tokens dan lemmas.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

document = nlp(text)
tokens = [token.text for token in document]

# Append the lemma for all tokens in the document
lemmas = [token.____ for token in document]
print("Lemmas:\n", ____, "\n")

# Print tokens and compare with lemmas list
print("Tokens:\n", ____)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada NLP, beberapa kasus penggunaannya seperti named-entity recognition dan chatbot berbasis AI. Anda akan mempelajari cara menggunakan pustaka spaCy yang andal untuk menjalankan berbagai tugas pemrosesan bahasa alami seperti tokenization, segmentasi kalimat, penandaan POS, dan named entity recognition.

Exercise 1: Dasar-dasar Natural Language Processing (NLP)Exercise 2: Kontainer Doc di spaCy Exercise 3: Contoh penggunaan NER Exercise 4: Tokenisasi dengan spaCy Exercise 5: Dasar-dasar spaCy Exercise 6: Menjalankan pipeline spaCy Exercise 7: Lematisasi dengan spaCy

Latihan Saat Ini

Exercise 8: Segmentasi kalimat dengan spaCy Exercise 9: Fitur linguistik di spaCy Exercise 10: POS tagging dengan spaCy Exercise 11: NER dengan spaCy Exercise 12: Pemrosesan teks dengan spaCy

Pelajari fitur linguistik, word vector, kemiripan semantik, analogi, dan operasi pada word vector. Di bab ini Anda akan menemukan cara menggunakan spaCy untuk mengekstrak word vector, mengkategorikan teks yang relevan dengan suatu topik, serta menemukan istilah yang secara semantik mirip dengan kata tertentu dari korpus atau dari kosakata model spaCy.

Exercise 1: Fitur linguistik Exercise 2: Anotasi linguistik di spaCy Exercise 3: Disambiguasi makna kata dengan spaCy Exercise 4: Dependency parsing dengan spaCy Exercise 5: Pengantar word vector Exercise 6: Kosakata spaCy Exercise 7: Vektor kata dalam kosakata spaCy Exercise 8: Vektor kata dan spaCy Exercise 9: Analogi dan operasi vektor Exercise 10: Proyeksi word vectors Exercise 11: Kata-kata serupa dalam sebuah kosakata Exercise 12: Mengukur kesamaan semantik dengan spaCy Exercise 13: Kesamaan Doc dengan spaCy Exercise 14: Kemiripan Span dengan spaCy Exercise 15: Kemiripan semantik untuk mengategorikan teks

Kenali komponen pipeline spaCy, cara menambahkan komponen pipeline, dan menganalisis pipeline NLP. Anda juga akan mempelajari berbagai pendekatan untuk ekstraksi informasi berbasis aturan menggunakan kelas EntityRuler, Matcher, dan PhraseMatcher di spaCy serta paket Python RegEx.

Exercise 1: Pipeline spaCy Exercise 2: Menambahkan pipe di spaCy Exercise 3: Menganalisis pipeline di spaCy Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler dengan model spaCy kosong Exercise 6: EntityRuler untuk NER Exercise 7: EntityRuler dengan multi-pattern di spaCy Exercise 8: RegEx dengan spaCy Exercise 9: RegEx di Python Exercise 10: RegEx dengan EntityRuler di spaCy Exercise 11: spaCy Matcher dan PhraseMatcher Exercise 12: Mencocokkan satu istilah di spaCy Exercise 13: PhraseMatcher di spaCy Exercise 14: Pencocokan dengan sintaks diperluas di spaCy

Jelajahi berbagai kasus dunia nyata ketika model spaCy mungkin gagal dan pelajari cara melatihnya lebih lanjut untuk meningkatkan kinerja model. Anda akan diperkenalkan pada langkah-langkah pelatihan spaCy dan memahami cara melatih model spaCy yang ada atau dari awal, serta mengevaluasi model pada saat inferensi.

Exercise 1: Kustomisasi model spaCy Exercise 2: Melatih model spaCy Exercise 3: Kinerja model pada data Anda Exercise 4: Format data pelatihan spaCy Exercise 5: Langkah-langkah pelatihan Exercise 6: Anotasi dan menyiapkan data pelatihan Exercise 7: Data pelatihan yang kompatibel Exercise 8: Pelatihan dengan spaCy Exercise 9: Langkah persiapan pelatihan Exercise 10: Latih model NER yang sudah ada Exercise 11: Melatih model spaCy dari awal Exercise 12: Ringkasan