Mengekstrak negara dan relasi

Pada latihan sebelumnya, Anda menulis skrip menggunakan PhraseMatcher milik spaCy untuk menemukan nama negara dalam teks. Mari gunakan pencari frasa negara tersebut pada teks yang lebih panjang, analisis sintaksisnya, dan perbarui entitas dokumen dengan negara-negara yang cocok. Objek nlp sudah dibuat.

Teks tersedia sebagai variabel text, PhraseMatcher dengan pola negara tersedia sebagai variabel matcher. Kelas Span sudah diimpor.

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a doc and find matches in it
doc = ____

# Iterate over the matches
for match_id, start, end in matcher(doc):
    # Create a Span with the label for "GPE"
    span = ____(____, ____, ____, label=____)

    # Overwrite the doc.ents and add the span
    doc.ents = list(doc.ents) + [____]

# Print the entities in the document
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == 'GPE'])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada dasar-dasar pemrosesan teks dengan spaCy. Anda akan mempelajari struktur data, cara bekerja dengan model statistik, serta cara menggunakannya untuk memprediksi fitur linguistik dalam teks Anda.

Exercise 1: Pengantar spaCy Exercise 2: Mulai Exercise 3: Dokumen, span, dan token Exercise 4: Atribut leksikal Exercise 5: Model statistik Exercise 6: Paket model Exercise 7: Memuat model Exercise 8: Memprediksi anotasi linguistik Exercise 9: Memprediksi entitas bernama dalam konteks Exercise 10: Pencocokan berbasis aturan Exercise 11: Menggunakan Matcher Exercise 12: Menulis pola pencocokan

Pada bab ini, Anda akan menggunakan keterampilan baru untuk mengekstrak informasi spesifik dari volume teks yang besar. Anda akan belajar memaksimalkan struktur data spaCy, serta menggabungkan pendekatan statistik dan berbasis aturan secara efektif untuk analisis teks.

Exercise 1: Struktur Data (1)Exercise 2: String menjadi hash Exercise 3: Vocab, hash, dan leksim Exercise 4: Struktur Data (2)Exercise 5: Membuat sebuah Doc Exercise 6: Doc, span, dan entitas dari awal Exercise 7: Praktik terbaik untuk struktur data Exercise 8: Vektor kata dan kemiripan Exercise 9: Menginspeksi vektor kata Exercise 10: Membandingkan kemiripan Exercise 11: Menggabungkan model dan aturan Exercise 12: Melacak galat pada pola (1)Exercise 13: Debugging pola (2)Exercise 14: Pencocokan frasa yang efisien Exercise 15: Mengekstrak negara dan relasi

Latihan Saat Ini

Bab ini akan menunjukkan segala hal yang perlu Anda ketahui tentang pipeline pemrosesan spaCy. Anda akan mempelajari apa yang terjadi di balik layar saat memproses teks, cara menulis komponen Anda sendiri dan menambahkannya ke pipeline, serta cara menggunakan atribut kustom untuk menambahkan meta data Anda sendiri ke dokumen, span, dan token.

Exercise 1: Pipeline pemrosesan Exercise 2: Apa yang terjadi saat Anda memanggil nlp?Exercise 3: Memeriksa pipeline Exercise 4: Komponen pipeline kustom Exercise 5: Kasus penggunaan komponen kustom Exercise 6: Komponen sederhana Exercise 7: Komponen kompleks Exercise 8: Atribut ekstensi Exercise 9: Menyetel atribut ekstensi (1)Exercise 10: Menyetel atribut ekstensi (2)Exercise 11: Entitas dan ekstensi Exercise 12: Komponen dengan ekstensi Exercise 13: Skalabilitas dan performa Exercise 14: Pemrosesan streaming Exercise 15: Memproses data dengan konteks Exercise 16: Pemrosesan selektif

Dalam bab ini, Anda akan belajar cara memperbarui model statistik spaCy agar sesuai dengan kasus penggunaan Anda – misalnya, untuk memprediksi jenis entitas baru dalam komentar online. Anda akan menulis loop pelatihan Anda sendiri dari awal, dan memahami dasar-dasar cara kerja pelatihan, beserta kiat dan trik yang dapat membuat proyek NLP kustom Anda lebih berhasil.

Exercise 1: Melatih dan memperbarui model Exercise 2: Tujuan pelatihan Exercise 3: Membuat data pelatihan (1)Exercise 4: Membuat data pelatihan (2)Exercise 5: Siklus pelatihan Exercise 6: Menyiapkan pipeline Exercise 7: Membangun training loop Exercise 8: Mengeksplorasi model Exercise 9: Praktik terbaik dalam pelatihan Exercise 10: Data yang baik vs. data yang buruk Exercise 11: Melatih beberapa label Exercise 12: Penutup