EntityRuler dengan model spaCy kosong
EntityRuler memungkinkan Anda menambahkan entitas ke doc.ents. Komponen ini dapat dikombinasikan dengan EntityRecognizer, komponen pipeline spaCy untuk pengenalan named entity, untuk meningkatkan akurasi, atau digunakan sendiri untuk menerapkan sistem pengenalan entitas berbasis aturan murni. Dalam latihan ini, Anda akan berlatih menambahkan komponen EntityRuler ke model bahasa Inggris spaCy yang kosong dan mengklasifikasikan named entity dari text yang diberikan menggunakan pengenalan entitas bernama berbasis aturan sepenuhnya.
Paket spaCy sudah diimpor dan model bahasa Inggris spaCy kosong telah siap digunakan sebagai nlp. Daftar patterns untuk mengklasifikasikan OpenAI dan Microsoft yang hurufnya kecil sebagai ORG sudah disiapkan untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Buat dan tambahkan komponen
EntityRulerke pipeline. - Tambahkan pola yang diberikan ke komponen
EntityRuler. - Jalankan model pada
textyang diberikan dan buat kontainerDoc-nya. - Cetak tuple (teks entitas dan tipenya) untuk semua entitas dalam kontainer
Doc
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
nlp = spacy.blank("en")
patterns = [{"label": "ORG", "pattern": [{"LOWER": "openai"}]},
{"label": "ORG", "pattern": [{"LOWER": "microsoft"}]}]
text = "OpenAI has joined forces with Microsoft."
# Add EntityRuler component to the model
entity_ruler = nlp.____("entity_ruler")
# Add given patterns to the EntityRuler component
entity_ruler.____(____)
# Run the model on a given text
doc = nlp(____)
# Print entities text and type for all entities in the Doc container
print([(ent.____, ent.____) for ent in doc.____])