Kemiripan semantik untuk mengategorikan teks

Tujuan utama kemiripan semantik adalah mengukur jarak antara makna semantik dari sepasang kata, frasa, kalimat, atau dokumen. Sebagai contoh, kata “car” lebih mirip dengan “bus” dibandingkan dengan “cat”. Pada latihan ini, Anda akan menemukan kalimat-kalimat yang mirip dengan kata sauce dari teks contoh di Amazon Fine Food Reviews. Anda dapat menggunakan spacy untuk menghitung skor kemiripan antara kata sauce dan setiap kalimat dalam string texts, lalu melaporkan skor dari kalimat yang paling mirip.

Sebuah string texts telah dimuat sebelumnya yang berisi semua data Text dari ulasan. Anda akan menggunakan model bahasa Inggris en_core_web_md untuk latihan ini yang sudah tersedia sebagai nlp.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Instruksi latihan

Gunakan nlp untuk menghasilkan kontainer Doc untuk kata sauce dan untuk texts, lalu simpan masing-masing pada key dan sentences.
Hitung skor kemiripan antara kata sauce dan setiap kalimat dalam string texts (dibulatkan hingga dua digit).

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Populate Doc containers for the word "sauce" and for "texts" string
key = ____
sentences = ____

# Calculate similarity score of each sentence and a Doc container for the word sauce
semantic_scores = []
for sent in sentences.____:
	semantic_scores.append({"score": round(sent.____(____), 2)})
print(semantic_scores)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada NLP, beberapa kasus penggunaannya seperti named-entity recognition dan chatbot berbasis AI. Anda akan mempelajari cara menggunakan pustaka spaCy yang andal untuk menjalankan berbagai tugas pemrosesan bahasa alami seperti tokenization, segmentasi kalimat, penandaan POS, dan named entity recognition.

Exercise 1: Dasar-dasar Natural Language Processing (NLP)Exercise 2: Kontainer Doc di spaCy Exercise 3: Contoh penggunaan NER Exercise 4: Tokenisasi dengan spaCy Exercise 5: Dasar-dasar spaCy Exercise 6: Menjalankan pipeline spaCy Exercise 7: Lematisasi dengan spaCy Exercise 8: Segmentasi kalimat dengan spaCy Exercise 9: Fitur linguistik di spaCy Exercise 10: POS tagging dengan spaCy Exercise 11: NER dengan spaCy Exercise 12: Pemrosesan teks dengan spaCy

Pelajari fitur linguistik, word vector, kemiripan semantik, analogi, dan operasi pada word vector. Di bab ini Anda akan menemukan cara menggunakan spaCy untuk mengekstrak word vector, mengkategorikan teks yang relevan dengan suatu topik, serta menemukan istilah yang secara semantik mirip dengan kata tertentu dari korpus atau dari kosakata model spaCy.

Exercise 1: Fitur linguistik Exercise 2: Anotasi linguistik di spaCy Exercise 3: Disambiguasi makna kata dengan spaCy Exercise 4: Dependency parsing dengan spaCy Exercise 5: Pengantar word vector Exercise 6: Kosakata spaCy Exercise 7: Vektor kata dalam kosakata spaCy Exercise 8: Vektor kata dan spaCy Exercise 9: Analogi dan operasi vektor Exercise 10: Proyeksi word vectors Exercise 11: Kata-kata serupa dalam sebuah kosakata Exercise 12: Mengukur kesamaan semantik dengan spaCy Exercise 13: Kesamaan Doc dengan spaCy Exercise 14: Kemiripan Span dengan spaCy Exercise 15: Kemiripan semantik untuk mengategorikan teks

Latihan Saat Ini

Kenali komponen pipeline spaCy, cara menambahkan komponen pipeline, dan menganalisis pipeline NLP. Anda juga akan mempelajari berbagai pendekatan untuk ekstraksi informasi berbasis aturan menggunakan kelas EntityRuler, Matcher, dan PhraseMatcher di spaCy serta paket Python RegEx.

Exercise 1: Pipeline spaCy Exercise 2: Menambahkan pipe di spaCy Exercise 3: Menganalisis pipeline di spaCy Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler dengan model spaCy kosong Exercise 6: EntityRuler untuk NER Exercise 7: EntityRuler dengan multi-pattern di spaCy Exercise 8: RegEx dengan spaCy Exercise 9: RegEx di Python Exercise 10: RegEx dengan EntityRuler di spaCy Exercise 11: spaCy Matcher dan PhraseMatcher Exercise 12: Mencocokkan satu istilah di spaCy Exercise 13: PhraseMatcher di spaCy Exercise 14: Pencocokan dengan sintaks diperluas di spaCy

Jelajahi berbagai kasus dunia nyata ketika model spaCy mungkin gagal dan pelajari cara melatihnya lebih lanjut untuk meningkatkan kinerja model. Anda akan diperkenalkan pada langkah-langkah pelatihan spaCy dan memahami cara melatih model spaCy yang ada atau dari awal, serta mengevaluasi model pada saat inferensi.

Exercise 1: Kustomisasi model spaCy Exercise 2: Melatih model spaCy Exercise 3: Kinerja model pada data Anda Exercise 4: Format data pelatihan spaCy Exercise 5: Langkah-langkah pelatihan Exercise 6: Anotasi dan menyiapkan data pelatihan Exercise 7: Data pelatihan yang kompatibel Exercise 8: Pelatihan dengan spaCy Exercise 9: Langkah persiapan pelatihan Exercise 10: Latih model NER yang sudah ada Exercise 11: Melatih model spaCy dari awal Exercise 12: Ringkasan