Mulai sekarangMulai gratis

Proyeksi word vectors

Anda dapat memvisualisasikan word vectors dalam scatter plot untuk membantu memahami bagaimana kata-kata dalam kosakata dikelompokkan. Untuk memvisualisasikan word vectors, Anda perlu memproyeksikannya ke ruang dua dimensi. Anda dapat memproyeksikan vektor dengan mengekstrak dua komponen utama melalui Principal Component Analysis (PCA).

Dalam latihan ini, Anda akan berlatih mengekstrak word vectors dan memproyeksikannya ke ruang dua dimensi menggunakan pustaka PCA dari sklearn.

Daftar kata pendek yang disimpan dalam list words dan model en_core_web_md tersedia untuk digunakan. Model dimuat sebagai nlp. Semua pustaka dan paket yang diperlukan sudah diimpor untuk Anda (PCA, numpy sebagai np).

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Instruksi latihan

  • Ekstrak ID kata dari kata-kata yang diberikan dan simpan dalam list word_ids.
  • Ekstrak lima elemen pertama dari word vectors untuk kata-kata tersebut lalu tumpuk secara vertikal menggunakan np.vstack() di word_vectors.
  • Dengan objek pca yang tersedia, hitung vektor kata yang telah ditransformasikan menggunakan fungsi .fit_transform() dari kelas pca.
  • Cetak komponen pertama dari vektor kata yang telah ditransformasikan menggunakan pengindeksan [:, 0].

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

words = ["tiger", "bird"]

# Extract word IDs of given words
word_ids = [nlp.____.____[w] for w in words]

# Extract word vectors and stack the first five elements vertically
word_vectors = np.vstack([nlp.____.____[i][:5] for i in word_ids])

# Calculate the transformed word vectors using the pca object
pca = PCA(n_components=2)
word_vectors_transformed = pca.____(____)

# Print the first component of the transformed word vectors
print(____[:, 0])
Edit dan Jalankan Kode