PhraseMatcher di spaCy

Saat memproses teks tidak terstruktur, Anda sering memiliki daftar dan kamus panjang yang ingin dipindai dan dicocokkan dalam teks tertentu. Pola Matcher dibuat secara manual dan setiap token perlu dikodekan satu per satu. Jika Anda memiliki daftar frasa yang panjang, Matcher bukan lagi opsi terbaik. Dalam kasus ini, kelas PhraseMatcher membantu mencocokkan kamus yang panjang. Pada latihan ini, Anda akan berlatih mengambil pola dengan bentuk (shape) yang sesuai untuk beberapa term menggunakan kelas PhraseMatcher.

Model en_core_web_sm sudah dimuat dan siap Anda gunakan sebagai nlp. Kelas PhraseMatcher sudah diimpor. Sebuah string text dan daftar terms tersedia untuk Anda gunakan.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Instruksi latihan

Inisialisasi kelas PhraseMatcher dengan sebuah attr untuk mencocokkan bentuk (shape) dari terms yang diberikan.
Buat patterns untuk ditambahkan ke objek PhraseMatcher.
Temukan kecocokan terhadap pola yang diberikan dan cetak indeks token awal dan akhir serta bagian yang cocok dari text yang diberikan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

text = "There are only a few acceptable IP addresse: (1) 127.100.0.1, (2) 123.4.1.0."
terms = ["110.0.0.0", "101.243.0.0"]

# Initialize a PhraseMatcher class to match to shapes of given terms
matcher = ____(nlp.____, attr = ____)

# Create patterns to add to the PhraseMatcher object
patterns = [nlp.make_doc(____) for term in terms]
matcher.____("IPAddresses", patterns)

# Find matches to the given patterns and print start and end characters and matches texts
doc = ____
matches = ____
for match_id, start, end in matches:
    print("Start token: ", ____, " | End token: ", ____, "| Matched text: ", doc[____:____].text)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada NLP, beberapa kasus penggunaannya seperti named-entity recognition dan chatbot berbasis AI. Anda akan mempelajari cara menggunakan pustaka spaCy yang andal untuk menjalankan berbagai tugas pemrosesan bahasa alami seperti tokenization, segmentasi kalimat, penandaan POS, dan named entity recognition.

Exercise 1: Dasar-dasar Natural Language Processing (NLP)Exercise 2: Kontainer Doc di spaCy Exercise 3: Contoh penggunaan NER Exercise 4: Tokenisasi dengan spaCy Exercise 5: Dasar-dasar spaCy Exercise 6: Menjalankan pipeline spaCy Exercise 7: Lematisasi dengan spaCy Exercise 8: Segmentasi kalimat dengan spaCy Exercise 9: Fitur linguistik di spaCy Exercise 10: POS tagging dengan spaCy Exercise 11: NER dengan spaCy Exercise 12: Pemrosesan teks dengan spaCy

Pelajari fitur linguistik, word vector, kemiripan semantik, analogi, dan operasi pada word vector. Di bab ini Anda akan menemukan cara menggunakan spaCy untuk mengekstrak word vector, mengkategorikan teks yang relevan dengan suatu topik, serta menemukan istilah yang secara semantik mirip dengan kata tertentu dari korpus atau dari kosakata model spaCy.

Exercise 1: Fitur linguistik Exercise 2: Anotasi linguistik di spaCy Exercise 3: Disambiguasi makna kata dengan spaCy Exercise 4: Dependency parsing dengan spaCy Exercise 5: Pengantar word vector Exercise 6: Kosakata spaCy Exercise 7: Vektor kata dalam kosakata spaCy Exercise 8: Vektor kata dan spaCy Exercise 9: Analogi dan operasi vektor Exercise 10: Proyeksi word vectors Exercise 11: Kata-kata serupa dalam sebuah kosakata Exercise 12: Mengukur kesamaan semantik dengan spaCy Exercise 13: Kesamaan Doc dengan spaCy Exercise 14: Kemiripan Span dengan spaCy Exercise 15: Kemiripan semantik untuk mengategorikan teks

Kenali komponen pipeline spaCy, cara menambahkan komponen pipeline, dan menganalisis pipeline NLP. Anda juga akan mempelajari berbagai pendekatan untuk ekstraksi informasi berbasis aturan menggunakan kelas EntityRuler, Matcher, dan PhraseMatcher di spaCy serta paket Python RegEx.

Exercise 1: Pipeline spaCy Exercise 2: Menambahkan pipe di spaCy Exercise 3: Menganalisis pipeline di spaCy Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler dengan model spaCy kosong Exercise 6: EntityRuler untuk NER Exercise 7: EntityRuler dengan multi-pattern di spaCy Exercise 8: RegEx dengan spaCy Exercise 9: RegEx di Python Exercise 10: RegEx dengan EntityRuler di spaCy Exercise 11: spaCy Matcher dan PhraseMatcher Exercise 12: Mencocokkan satu istilah di spaCy Exercise 13: PhraseMatcher di spaCy

Latihan Saat Ini

Exercise 14: Pencocokan dengan sintaks diperluas di spaCy

Jelajahi berbagai kasus dunia nyata ketika model spaCy mungkin gagal dan pelajari cara melatihnya lebih lanjut untuk meningkatkan kinerja model. Anda akan diperkenalkan pada langkah-langkah pelatihan spaCy dan memahami cara melatih model spaCy yang ada atau dari awal, serta mengevaluasi model pada saat inferensi.

Exercise 1: Kustomisasi model spaCy Exercise 2: Melatih model spaCy Exercise 3: Kinerja model pada data Anda Exercise 4: Format data pelatihan spaCy Exercise 5: Langkah-langkah pelatihan Exercise 6: Anotasi dan menyiapkan data pelatihan Exercise 7: Data pelatihan yang kompatibel Exercise 8: Pelatihan dengan spaCy Exercise 9: Langkah persiapan pelatihan Exercise 10: Latih model NER yang sudah ada Exercise 11: Melatih model spaCy dari awal Exercise 12: Ringkasan