Atribut leksikal

Dalam contoh ini, Anda akan menggunakan objek Doc dan Token dari spaCy, serta atribut leksikal untuk menemukan persentase dalam sebuah teks. Anda akan mencari dua token berurutan: sebuah angka dan tanda persen. Objek nlp bahasa Inggris sudah disiapkan.

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

Instruksi latihan

Gunakan atribut token like_num untuk memeriksa apakah sebuah token dalam doc menyerupai angka.
Ambil token yang berada setelah token saat ini dalam dokumen. Indeks token berikutnya dalam doc adalah token.i + 1.
Periksa apakah atribut text token berikutnya adalah tanda persen "%".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Process the text
doc = nlp("In 1990, more than 60% of people in East Asia were in extreme poverty. Now less than 4% are.")

# Iterate over the tokens in the doc
for token in doc:
    # Check if the token resembles a number
    if ____.____:
        # Get the next token in the document
        next_token = ____[____]
        # Check if the next token's text equals '%'
        if next_token.____ == '%':
            print('Percentage found:', token.text)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

NLP Lanjutan dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada dasar-dasar pemrosesan teks dengan spaCy. Anda akan mempelajari struktur data, cara bekerja dengan model statistik, serta cara menggunakannya untuk memprediksi fitur linguistik dalam teks Anda.

Exercise 1: Pengantar spaCy Exercise 2: Mulai Exercise 3: Dokumen, span, dan token Exercise 4: Atribut leksikal

Latihan Saat Ini

Exercise 5: Model statistik Exercise 6: Paket model Exercise 7: Memuat model Exercise 8: Memprediksi anotasi linguistik Exercise 9: Memprediksi entitas bernama dalam konteks Exercise 10: Pencocokan berbasis aturan Exercise 11: Menggunakan Matcher Exercise 12: Menulis pola pencocokan

Pada bab ini, Anda akan menggunakan keterampilan baru untuk mengekstrak informasi spesifik dari volume teks yang besar. Anda akan belajar memaksimalkan struktur data spaCy, serta menggabungkan pendekatan statistik dan berbasis aturan secara efektif untuk analisis teks.

Exercise 1: Struktur Data (1)Exercise 2: String menjadi hash Exercise 3: Vocab, hash, dan leksim Exercise 4: Struktur Data (2)Exercise 5: Membuat sebuah Doc Exercise 6: Doc, span, dan entitas dari awal Exercise 7: Praktik terbaik untuk struktur data Exercise 8: Vektor kata dan kemiripan Exercise 9: Menginspeksi vektor kata Exercise 10: Membandingkan kemiripan Exercise 11: Menggabungkan model dan aturan Exercise 12: Melacak galat pada pola (1)Exercise 13: Debugging pola (2)Exercise 14: Pencocokan frasa yang efisien Exercise 15: Mengekstrak negara dan relasi

Bab ini akan menunjukkan segala hal yang perlu Anda ketahui tentang pipeline pemrosesan spaCy. Anda akan mempelajari apa yang terjadi di balik layar saat memproses teks, cara menulis komponen Anda sendiri dan menambahkannya ke pipeline, serta cara menggunakan atribut kustom untuk menambahkan meta data Anda sendiri ke dokumen, span, dan token.

Exercise 1: Pipeline pemrosesan Exercise 2: Apa yang terjadi saat Anda memanggil nlp?Exercise 3: Memeriksa pipeline Exercise 4: Komponen pipeline kustom Exercise 5: Kasus penggunaan komponen kustom Exercise 6: Komponen sederhana Exercise 7: Komponen kompleks Exercise 8: Atribut ekstensi Exercise 9: Menyetel atribut ekstensi (1)Exercise 10: Menyetel atribut ekstensi (2)Exercise 11: Entitas dan ekstensi Exercise 12: Komponen dengan ekstensi Exercise 13: Skalabilitas dan performa Exercise 14: Pemrosesan streaming Exercise 15: Memproses data dengan konteks Exercise 16: Pemrosesan selektif

Dalam bab ini, Anda akan belajar cara memperbarui model statistik spaCy agar sesuai dengan kasus penggunaan Anda – misalnya, untuk memprediksi jenis entitas baru dalam komentar online. Anda akan menulis loop pelatihan Anda sendiri dari awal, dan memahami dasar-dasar cara kerja pelatihan, beserta kiat dan trik yang dapat membuat proyek NLP kustom Anda lebih berhasil.

Exercise 1: Melatih dan memperbarui model Exercise 2: Tujuan pelatihan Exercise 3: Membuat data pelatihan (1)Exercise 4: Membuat data pelatihan (2)Exercise 5: Siklus pelatihan Exercise 6: Menyiapkan pipeline Exercise 7: Membangun training loop Exercise 8: Mengeksplorasi model Exercise 9: Praktik terbaik dalam pelatihan Exercise 10: Data yang baik vs. data yang buruk Exercise 11: Melatih beberapa label Exercise 12: Penutup