Kata-kata serupa dalam sebuah kosakata
Menemukan istilah yang secara semantik serupa memiliki berbagai penerapan dalam penelusuran informasi. Pada latihan ini, Anda akan berlatih mencari istilah yang paling serupa secara semantik dengan kata computer dari kosakata model en_core_web_md.
Vektor kata computer sudah diekstrak dan disimpan sebagai word_vector. Model en_core_web_md sudah dimuat sebagai nlp, dan paket NumPy sudah dimuat sebagai np.
Anda dapat menggunakan fungsi .most_similar() dari objek nlp.vocab.vectors untuk menemukan istilah yang paling serupa secara semantik. Mengindeks keluaran fungsi ini dengan [0][0] akan mengembalikan ID kata dari istilah-istilah yang serupa secara semantik. nlp.vocab.strings[<a given word>] dapat digunakan untuk menemukan ID kata dari suatu kata dan, sebaliknya, juga dapat mengembalikan kata yang terkait dengan ID kata tertentu.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Temukan istilah yang paling serupa secara semantik dari kosakata
en_core_web_md. - Temukan daftar kata serupa berdasarkan ID kata dari istilah-istilah serupa tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the most similar word to the word computer
most_similar_words = nlp.vocab.vectors.____(np.asarray([____]), n = 1)
# Find the list of similar words given the word IDs
words = [nlp.____.____[____] for w in most_similar_words[0][0]]
print(words)