Tokenisasi dengan spaCy

Pada latihan ini, Anda akan berlatih melakukan tokenisasi teks. Anda akan menggunakan ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut menggunakan objek text yang sudah disediakan.

Model en_core_web_sm sudah dimuat untuk Anda. Anda dapat mengaksesnya dengan memanggil nlp(). Anda dapat menggunakan list comprehension untuk menyusun daftar keluaran.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Instruksi latihan

Simpan kontainer Doc untuk ulasan yang sudah dimuat ke dalam objek document.
Simpan dan tinjau teks semua token dari document ke dalam variabel first_text_tokens.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada NLP, beberapa kasus penggunaannya seperti named-entity recognition dan chatbot berbasis AI. Anda akan mempelajari cara menggunakan pustaka spaCy yang andal untuk menjalankan berbagai tugas pemrosesan bahasa alami seperti tokenization, segmentasi kalimat, penandaan POS, dan named entity recognition.

Exercise 1: Dasar-dasar Natural Language Processing (NLP)Exercise 2: Kontainer Doc di spaCy Exercise 3: Contoh penggunaan NER Exercise 4: Tokenisasi dengan spaCy

Latihan Saat Ini

Exercise 5: Dasar-dasar spaCy Exercise 6: Menjalankan pipeline spaCy Exercise 7: Lematisasi dengan spaCy Exercise 8: Segmentasi kalimat dengan spaCy Exercise 9: Fitur linguistik di spaCy Exercise 10: POS tagging dengan spaCy Exercise 11: NER dengan spaCy Exercise 12: Pemrosesan teks dengan spaCy

Pelajari fitur linguistik, word vector, kemiripan semantik, analogi, dan operasi pada word vector. Di bab ini Anda akan menemukan cara menggunakan spaCy untuk mengekstrak word vector, mengkategorikan teks yang relevan dengan suatu topik, serta menemukan istilah yang secara semantik mirip dengan kata tertentu dari korpus atau dari kosakata model spaCy.

Exercise 1: Fitur linguistik Exercise 2: Anotasi linguistik di spaCy Exercise 3: Disambiguasi makna kata dengan spaCy Exercise 4: Dependency parsing dengan spaCy Exercise 5: Pengantar word vector Exercise 6: Kosakata spaCy Exercise 7: Vektor kata dalam kosakata spaCy Exercise 8: Vektor kata dan spaCy Exercise 9: Analogi dan operasi vektor Exercise 10: Proyeksi word vectors Exercise 11: Kata-kata serupa dalam sebuah kosakata Exercise 12: Mengukur kesamaan semantik dengan spaCy Exercise 13: Kesamaan Doc dengan spaCy Exercise 14: Kemiripan Span dengan spaCy Exercise 15: Kemiripan semantik untuk mengategorikan teks

Kenali komponen pipeline spaCy, cara menambahkan komponen pipeline, dan menganalisis pipeline NLP. Anda juga akan mempelajari berbagai pendekatan untuk ekstraksi informasi berbasis aturan menggunakan kelas EntityRuler, Matcher, dan PhraseMatcher di spaCy serta paket Python RegEx.

Exercise 1: Pipeline spaCy Exercise 2: Menambahkan pipe di spaCy Exercise 3: Menganalisis pipeline di spaCy Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler dengan model spaCy kosong Exercise 6: EntityRuler untuk NER Exercise 7: EntityRuler dengan multi-pattern di spaCy Exercise 8: RegEx dengan spaCy Exercise 9: RegEx di Python Exercise 10: RegEx dengan EntityRuler di spaCy Exercise 11: spaCy Matcher dan PhraseMatcher Exercise 12: Mencocokkan satu istilah di spaCy Exercise 13: PhraseMatcher di spaCy Exercise 14: Pencocokan dengan sintaks diperluas di spaCy

Jelajahi berbagai kasus dunia nyata ketika model spaCy mungkin gagal dan pelajari cara melatihnya lebih lanjut untuk meningkatkan kinerja model. Anda akan diperkenalkan pada langkah-langkah pelatihan spaCy dan memahami cara melatih model spaCy yang ada atau dari awal, serta mengevaluasi model pada saat inferensi.

Exercise 1: Kustomisasi model spaCy Exercise 2: Melatih model spaCy Exercise 3: Kinerja model pada data Anda Exercise 4: Format data pelatihan spaCy Exercise 5: Langkah-langkah pelatihan Exercise 6: Anotasi dan menyiapkan data pelatihan Exercise 7: Data pelatihan yang kompatibel Exercise 8: Pelatihan dengan spaCy Exercise 9: Langkah persiapan pelatihan Exercise 10: Latih model NER yang sudah ada Exercise 11: Melatih model spaCy dari awal Exercise 12: Ringkasan