Membuat data pelatihan (1)

Matcher berbasis aturan milik spaCy adalah cara yang sangat baik untuk membuat data pelatihan secara cepat bagi model named entity. Daftar kalimat tersedia dalam variabel TEXTS. Anda dapat mencetaknya di shell IPython untuk memeriksanya. Kita ingin menemukan semua penyebutan berbagai model iPhone, sehingga kita dapat membuat data pelatihan untuk mengajarkan model mengenalinya sebagai 'GADGET'.

Objek nlp sudah dibuat untuk Anda dan Matcher tersedia sebagai variabel matcher.

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

Instruksi latihan

Tulis pola untuk dua token yang bentuk huruf kecilnya cocok dengan 'iphone' dan 'x'.
Tulis pola untuk dua token: satu token yang bentuk huruf kecilnya cocok dengan 'iphone' dan sebuah digit yang bersifat opsional menggunakan operator '?'.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada dasar-dasar pemrosesan teks dengan spaCy. Anda akan mempelajari struktur data, cara bekerja dengan model statistik, serta cara menggunakannya untuk memprediksi fitur linguistik dalam teks Anda.

Exercise 1: Pengantar spaCy Exercise 2: Mulai Exercise 3: Dokumen, span, dan token Exercise 4: Atribut leksikal Exercise 5: Model statistik Exercise 6: Paket model Exercise 7: Memuat model Exercise 8: Memprediksi anotasi linguistik Exercise 9: Memprediksi entitas bernama dalam konteks Exercise 10: Pencocokan berbasis aturan Exercise 11: Menggunakan Matcher Exercise 12: Menulis pola pencocokan

Pada bab ini, Anda akan menggunakan keterampilan baru untuk mengekstrak informasi spesifik dari volume teks yang besar. Anda akan belajar memaksimalkan struktur data spaCy, serta menggabungkan pendekatan statistik dan berbasis aturan secara efektif untuk analisis teks.

Exercise 1: Struktur Data (1)Exercise 2: String menjadi hash Exercise 3: Vocab, hash, dan leksim Exercise 4: Struktur Data (2)Exercise 5: Membuat sebuah Doc Exercise 6: Doc, span, dan entitas dari awal Exercise 7: Praktik terbaik untuk struktur data Exercise 8: Vektor kata dan kemiripan Exercise 9: Menginspeksi vektor kata Exercise 10: Membandingkan kemiripan Exercise 11: Menggabungkan model dan aturan Exercise 12: Melacak galat pada pola (1)Exercise 13: Debugging pola (2)Exercise 14: Pencocokan frasa yang efisien Exercise 15: Mengekstrak negara dan relasi

Bab ini akan menunjukkan segala hal yang perlu Anda ketahui tentang pipeline pemrosesan spaCy. Anda akan mempelajari apa yang terjadi di balik layar saat memproses teks, cara menulis komponen Anda sendiri dan menambahkannya ke pipeline, serta cara menggunakan atribut kustom untuk menambahkan meta data Anda sendiri ke dokumen, span, dan token.

Exercise 1: Pipeline pemrosesan Exercise 2: Apa yang terjadi saat Anda memanggil nlp?Exercise 3: Memeriksa pipeline Exercise 4: Komponen pipeline kustom Exercise 5: Kasus penggunaan komponen kustom Exercise 6: Komponen sederhana Exercise 7: Komponen kompleks Exercise 8: Atribut ekstensi Exercise 9: Menyetel atribut ekstensi (1)Exercise 10: Menyetel atribut ekstensi (2)Exercise 11: Entitas dan ekstensi Exercise 12: Komponen dengan ekstensi Exercise 13: Skalabilitas dan performa Exercise 14: Pemrosesan streaming Exercise 15: Memproses data dengan konteks Exercise 16: Pemrosesan selektif

Dalam bab ini, Anda akan belajar cara memperbarui model statistik spaCy agar sesuai dengan kasus penggunaan Anda – misalnya, untuk memprediksi jenis entitas baru dalam komentar online. Anda akan menulis loop pelatihan Anda sendiri dari awal, dan memahami dasar-dasar cara kerja pelatihan, beserta kiat dan trik yang dapat membuat proyek NLP kustom Anda lebih berhasil.

Exercise 1: Melatih dan memperbarui model Exercise 2: Tujuan pelatihan Exercise 3: Membuat data pelatihan (1)

Latihan Saat Ini

Exercise 4: Membuat data pelatihan (2)Exercise 5: Siklus pelatihan Exercise 6: Menyiapkan pipeline Exercise 7: Membangun training loop Exercise 8: Mengeksplorasi model Exercise 9: Praktik terbaik dalam pelatihan Exercise 10: Data yang baik vs. data yang buruk Exercise 11: Melatih beberapa label Exercise 12: Penutup