Vektor kata dalam kosakata spaCy
Tujuan dari vektor kata adalah memungkinkan komputer memahami kata. Pada latihan ini, Anda akan berlatih mengekstrak vektor kata untuk daftar kata yang diberikan.
Daftar kata telah disiapkan sebagai words. Model en_core_web_md sudah diimpor dan tersedia sebagai nlp.
Kosakata model en_core_web_md berisi 20.000 kata. Jika suatu kata tidak ada dalam kosakata, Anda tidak dapat mengekstrak vektor katanya. Dalam latihan ini, untuk menyederhanakan, dipastikan bahwa semua kata yang diberikan ada dalam kosakata model ini.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Ekstrak ID dari semua
wordsyang diberikan dan simpan dalam daftarids. - Untuk setiap ID dari
ids, simpan sepuluh elemen pertama dari vektor kata ke dalam daftarword_vectors. - Cetak sepuluh elemen pertama dari vektor kata pertama di
word_vectors.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
words = ["like", "love"]
# IDs of all the given words
ids = [nlp.____.____[w] for w in words]
# Store the first ten elements of the word vectors for each word
word_vectors = [nlp.____.____[i][:10] for i in ids]
# Print the first ten elements of the first word vector
print(____[0])