MulaiMulai sekarang secara gratis

Membuat data pelatihan (1)

Matcher berbasis aturan milik spaCy adalah cara yang sangat baik untuk membuat data pelatihan secara cepat bagi model named entity. Daftar kalimat tersedia dalam variabel TEXTS. Anda dapat mencetaknya di shell IPython untuk memeriksanya. Kita ingin menemukan semua penyebutan berbagai model iPhone, sehingga kita dapat membuat data pelatihan untuk mengajarkan model mengenalinya sebagai 'GADGET'.

Objek nlp sudah dibuat untuk Anda dan Matcher tersedia sebagai variabel matcher.

Latihan ini adalah bagian dari kursus

NLP Lanjutan dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Tulis pola untuk dua token yang bentuk huruf kecilnya cocok dengan 'iphone' dan 'x'.
  • Tulis pola untuk dua token: satu token yang bentuk huruf kecilnya cocok dengan 'iphone' dan sebuah digit yang bersifat opsional menggunakan operator '?'.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)
Edit dan Jalankan Kode