Woordvectoren in de spaCy-woordenschat
Het doel van woordvectoren is om een computer woorden te laten begrijpen. In deze oefening ga je woordvectoren ophalen voor een gegeven lijst met woorden.
Een lijst met woorden is beschikbaar als words. Het model en_core_web_md is al geïmporteerd en beschikbaar als nlp.
De woordenschat van het model en_core_web_md bevat 20.000 woorden. Als een woord niet in de woordenschat voorkomt, kun je de bijbehorende woordvector niet ophalen. In deze oefening is het voor de eenvoud gegarandeerd dat alle gegeven woorden in de woordenschat van dit model staan.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Haal de ID's op van alle gegeven
wordsen sla ze op in een lijstids. - Sla voor elke ID uit
idsde eerste tien elementen van de woordvector op in de lijstword_vectors. - Print de eerste tien elementen van de eerste woordvector uit
word_vectors.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
words = ["like", "love"]
# IDs of all the given words
ids = [nlp.____.____[w] for w in words]
# Store the first ten elements of the word vectors for each word
word_vectors = [nlp.____.____[i][:10] for i in ids]
# Print the first ten elements of the first word vector
print(____[0])