MulaiMulai sekarang secara gratis

Proyeksi word vectors

Anda dapat memvisualisasikan word vectors dalam scatter plot untuk membantu memahami bagaimana kata-kata dalam kosakata dikelompokkan. Untuk memvisualisasikan word vectors, Anda perlu memproyeksikannya ke ruang dua dimensi. Anda dapat memproyeksikan vektor dengan mengekstrak dua komponen utama melalui Principal Component Analysis (PCA).

Dalam latihan ini, Anda akan berlatih mengekstrak word vectors dan memproyeksikannya ke ruang dua dimensi menggunakan pustaka PCA dari sklearn.

Daftar kata pendek yang disimpan dalam list words dan model en_core_web_md tersedia untuk digunakan. Model dimuat sebagai nlp. Semua pustaka dan paket yang diperlukan sudah diimpor untuk Anda (PCA, numpy sebagai np).

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Ekstrak ID kata dari kata-kata yang diberikan dan simpan dalam list word_ids.
  • Ekstrak lima elemen pertama dari word vectors untuk kata-kata tersebut lalu tumpuk secara vertikal menggunakan np.vstack() di word_vectors.
  • Dengan objek pca yang tersedia, hitung vektor kata yang telah ditransformasikan menggunakan fungsi .fit_transform() dari kelas pca.
  • Cetak komponen pertama dari vektor kata yang telah ditransformasikan menggunakan pengindeksan [:, 0].

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

words = ["tiger", "bird"]

# Extract word IDs of given words
word_ids = [nlp.____.____[w] for w in words]

# Extract word vectors and stack the first five elements vertically
word_vectors = np.vstack([nlp.____.____[i][:5] for i in word_ids])

# Calculate the transformed word vectors using the pca object
pca = PCA(n_components=2)
word_vectors_transformed = pca.____(____)

# Print the first component of the transformed word vectors
print(____[:, 0])
Edit dan Jalankan Kode