Proyeksi word vectors

Anda dapat memvisualisasikan word vectors dalam scatter plot untuk membantu memahami bagaimana kata-kata dalam kosakata dikelompokkan. Untuk memvisualisasikan word vectors, Anda perlu memproyeksikannya ke ruang dua dimensi. Anda dapat memproyeksikan vektor dengan mengekstrak dua komponen utama melalui Principal Component Analysis (PCA).

Dalam latihan ini, Anda akan berlatih mengekstrak word vectors dan memproyeksikannya ke ruang dua dimensi menggunakan pustaka PCA dari sklearn.

Daftar kata pendek yang disimpan dalam list words dan model en_core_web_md tersedia untuk digunakan. Model dimuat sebagai nlp. Semua pustaka dan paket yang diperlukan sudah diimpor untuk Anda (PCA, numpy sebagai np).

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Instruksi latihan

Ekstrak ID kata dari kata-kata yang diberikan dan simpan dalam list word_ids.
Ekstrak lima elemen pertama dari word vectors untuk kata-kata tersebut lalu tumpuk secara vertikal menggunakan np.vstack() di word_vectors.
Dengan objek pca yang tersedia, hitung vektor kata yang telah ditransformasikan menggunakan fungsi .fit_transform() dari kelas pca.
Cetak komponen pertama dari vektor kata yang telah ditransformasikan menggunakan pengindeksan [:, 0].

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

words = ["tiger", "bird"]

# Extract word IDs of given words
word_ids = [nlp.____.____[w] for w in words]

# Extract word vectors and stack the first five elements vertically
word_vectors = np.vstack([nlp.____.____[i][:5] for i in word_ids])

# Calculate the transformed word vectors using the pca object
pca = PCA(n_components=2)
word_vectors_transformed = pca.____(____)

# Print the first component of the transformed word vectors
print(____[:, 0])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini akan memperkenalkan Anda pada NLP, beberapa kasus penggunaannya seperti named-entity recognition dan chatbot berbasis AI. Anda akan mempelajari cara menggunakan pustaka spaCy yang andal untuk menjalankan berbagai tugas pemrosesan bahasa alami seperti tokenization, segmentasi kalimat, penandaan POS, dan named entity recognition.

Exercise 1: Dasar-dasar Natural Language Processing (NLP)Exercise 2: Kontainer Doc di spaCy Exercise 3: Contoh penggunaan NER Exercise 4: Tokenisasi dengan spaCy Exercise 5: Dasar-dasar spaCy Exercise 6: Menjalankan pipeline spaCy Exercise 7: Lematisasi dengan spaCy Exercise 8: Segmentasi kalimat dengan spaCy Exercise 9: Fitur linguistik di spaCy Exercise 10: POS tagging dengan spaCy Exercise 11: NER dengan spaCy Exercise 12: Pemrosesan teks dengan spaCy

Pelajari fitur linguistik, word vector, kemiripan semantik, analogi, dan operasi pada word vector. Di bab ini Anda akan menemukan cara menggunakan spaCy untuk mengekstrak word vector, mengkategorikan teks yang relevan dengan suatu topik, serta menemukan istilah yang secara semantik mirip dengan kata tertentu dari korpus atau dari kosakata model spaCy.

Exercise 1: Fitur linguistik Exercise 2: Anotasi linguistik di spaCy Exercise 3: Disambiguasi makna kata dengan spaCy Exercise 4: Dependency parsing dengan spaCy Exercise 5: Pengantar word vector Exercise 6: Kosakata spaCy Exercise 7: Vektor kata dalam kosakata spaCy Exercise 8: Vektor kata dan spaCy Exercise 9: Analogi dan operasi vektor Exercise 10: Proyeksi word vectors

Latihan Saat Ini

Exercise 11: Kata-kata serupa dalam sebuah kosakata Exercise 12: Mengukur kesamaan semantik dengan spaCy Exercise 13: Kesamaan Doc dengan spaCy Exercise 14: Kemiripan Span dengan spaCy Exercise 15: Kemiripan semantik untuk mengategorikan teks

Kenali komponen pipeline spaCy, cara menambahkan komponen pipeline, dan menganalisis pipeline NLP. Anda juga akan mempelajari berbagai pendekatan untuk ekstraksi informasi berbasis aturan menggunakan kelas EntityRuler, Matcher, dan PhraseMatcher di spaCy serta paket Python RegEx.

Exercise 1: Pipeline spaCy Exercise 2: Menambahkan pipe di spaCy Exercise 3: Menganalisis pipeline di spaCy Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler dengan model spaCy kosong Exercise 6: EntityRuler untuk NER Exercise 7: EntityRuler dengan multi-pattern di spaCy Exercise 8: RegEx dengan spaCy Exercise 9: RegEx di Python Exercise 10: RegEx dengan EntityRuler di spaCy Exercise 11: spaCy Matcher dan PhraseMatcher Exercise 12: Mencocokkan satu istilah di spaCy Exercise 13: PhraseMatcher di spaCy Exercise 14: Pencocokan dengan sintaks diperluas di spaCy

Jelajahi berbagai kasus dunia nyata ketika model spaCy mungkin gagal dan pelajari cara melatihnya lebih lanjut untuk meningkatkan kinerja model. Anda akan diperkenalkan pada langkah-langkah pelatihan spaCy dan memahami cara melatih model spaCy yang ada atau dari awal, serta mengevaluasi model pada saat inferensi.

Exercise 1: Kustomisasi model spaCy Exercise 2: Melatih model spaCy Exercise 3: Kinerja model pada data Anda Exercise 4: Format data pelatihan spaCy Exercise 5: Langkah-langkah pelatihan Exercise 6: Anotasi dan menyiapkan data pelatihan Exercise 7: Data pelatihan yang kompatibel Exercise 8: Pelatihan dengan spaCy Exercise 9: Langkah persiapan pelatihan Exercise 10: Latih model NER yang sudah ada Exercise 11: Melatih model spaCy dari awal Exercise 12: Ringkasan